L’htr des langues peu dotées dans les programmes de recherche et des établissement de conservation français |

La reconnaissance optique des écritures manuscrites (HTR), étape préalable à toute entreprise d’analyse ou de fouille de texte, pose des défis spécifiques pour les graphies non latines. Organisée en partenariat avec le consortium HumaNum DISTAM, cette journée d’étude permettra de faire le point sur les projets de recherche en cours et sur la place de l’HTR dans les établissements français conservant des manuscrits.

Depuis quelques années, différents projets d’HTR (handwritten character recognition) de manuscrits en graphies non-latines (arabe, arménienne, chinoise, hébraïque, etc.), conservés dans des bibliothèques françaises, ont été menés à bien, notamment dans le cadre du programme CollEx Persée, de projets ANR, ou des travaux du DataLab de la BnF.

La plupart parviennent à des taux de reconnaissance supérieurs à 90%, mais avec une marge de progression qui semble limitée en l’état actuel des technologies employées, et un défi qui est celui de la correction des textes extraits.

Cette journée d’étude se propose de faire un point sur ces avancées et ces défis avec les porteurs actuels de projets de reconnaissance automatique d’écriture en langues peu dotées. Il s’agira de s’interroger sur les capacités de progression des outils utilisés, sur ce que recouvrent exactement les taux de reconnaissance obtenus, sur les perspectives que cette mise à disposition massive d’extractions de textes manuscrits ouvre pour la recherche en termes de lecture distante et de traitement automatique de la langue ainsi que sur la normalisation des modèles et la publication des modèles et des données d’entrainement. Elle examinera enfin la place de l’HTR dans les programmes des établissements de conservation français, ainsi que l’intégration des extractions obtenues dans les bibliothèques numériques.

PROGRAMME

9h00 – 9h15 – Ouverture : BnF et DISTAM

9h15 – 9h45 – L’HTR des textes en chinois classique

9h45 – 10h30 – L’HTR des textes en hébreu médiéval

10h30 – 10h45 – Pause-café

10h45 – 11h30 – L’HTR des textes en arabe maghrébin

11h30 – 12h15 – L’HTR des textes en arabe oriental

12h30 – 13h30 – Déjeuner

13h30 – 14h30 – Table ronde 1 : Capacités de progression des outils utilisés, signification et implication des taux de reconnaissance obtenus

14h30 – 15h30 – Table ronde 2 : Normalisation et publication des modèles, publication des données d’entrainement

15h30 – 15h45 – Pause-café

15h45 – 16h45 – Table ronde 3 : Place de l’HTR dans les programmes de numérisation et de coopération scientifique des établissements de conservation français

16h45 – 17h00 – Clôture

Entrée gratuite dans la limite des places disponibles

Pour plus d’informations cliquer ici