La reconnaissance optique des écritures manuscrites (HTR), étape préalable à toute entreprise d’analyse ou de fouille de texte, pose des défis spécifiques pour les graphies non latines. Organisée en partenariat avec le consortium HumaNum DISTAM, cette journée d’étude permettra de faire le point sur les projets de recherche en cours et sur la place de l’HTR dans les établissements français conservant des manuscrits.
Depuis quelques années, différents projets d’HTR (handwritten character recognition) de manuscrits en graphies non-latines (arabe, arménienne, chinoise, hébraïque, etc.), conservés dans des bibliothèques françaises, ont été menés à bien, notamment dans le cadre du programme CollEx Persée, de projets ANR, ou des travaux du DataLab de la BnF.
La plupart parviennent à des taux de reconnaissance supérieurs à 90%, mais avec une marge de progression qui semble limitée en l’état actuel des technologies employées, et un défi qui est celui de la correction des textes extraits.
Cette journée d’étude se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées. Il s’agira de s’interroger sur les capacités de progression des outils utilisés, sur ce que recouvrent exactement les taux de reconnaissance obtenus, sur les perspectives que cette mise à disposition massive d’extractions de textes manuscrits ouvre pour la recherche en termes de lecture distante et de traitement automatique de la langue ainsi que sur la normalisation des modèles et la publication des modèles et des données d’entrainement. Elle examinera enfin la place de l’HTR dans les programmes des établissements de conservation français, ainsi que l’intégration des extractions obtenues dans les bibliothèques numériques.
PROGRAMME
9h00 – 9h15 – Ouverture : BnF et DISTAM
9h15 – 9h45 – L’HTR des textes en chinois classique
9h45 – 10h30 – L’HTR des textes en hébreu médiéval
10h30 – 10h45 – Pause-café
10h45 – 11h30 – L’HTR des textes en arabe maghrébin
11h30 – 12h15 – L’HTR des textes en arabe oriental
12h30 – 13h30 – Déjeuner
13h30 – 14h30 – Table ronde 1 : Capacités de progression des outils utilisés, signification et implication des taux de reconnaissance obtenus
14h30 – 15h30 – Table ronde 2 : Normalisation et publication des modèles, publication des données d’entrainement
15h30 – 15h45 – Pause-café
15h45 – 16h45 – Table ronde 3 : Place de l’HTR dans les programmes de numérisation et de coopération scientifique des établissements de conservation français
16h45 – 17h00 – Clôture
Entrée gratuite dans la limite des places disponibles