Pour elle, vu l'avancée des capacités de scan d'une part et de data science et analyse d'image d'autre part, la paléographie pourrait être le prochain maillon à se révolutionner. En effet après l'étape de la numérisation actuelle, pourrait venir une étape de reconnaissance optique des caractères automatisée (OCR) de la paléographie ouvrant elle même la porte à l'arrivée de logiciels ayant une compréhension du langage et donc capables d'extraire les informations et les indexer dans des bases de données. Pour l'utilisateur, une interface pourrait chercher parmi les différentes bases de données et lui produire un arbre automatique. "Un processus mécanique, rapide et efficace" (je cite).
Commençons par tempérer un peu son propos. Certes de grands pas ont été réalisés dans l'accès d'actes numérisés, mais ce n'est pas demain que tous les actes notariaux de toute la France seront numérisés et en ligne. Ensuite l'étape OCR n'en est encore qu'à ses balbutiements concernant l'écriture manuscrite ancienne, comme le montre le chartiste Jean-Baptiste Camps sur son blog (en anglais). Enfin, les logiciels d'intelligence artificielle de compréhension du langage sont arrivés en janvier dernier au niveau conversationnel permettant pour la première fois à battre les humains dans un test de lecture et de compréhension. Mais si on regarde les performances des intelligences artificielles, elles permettent de valider des hypothèses mais pas de déchiffrer des manuscrits incompréhensibles (c.f. la publication qui vient d'être faite sur le manuscrit Voynich) Donc avant que le processus soit mécanique, rapide et efficace, il va encore falloir quelques années.
La question suivante de Delphine Fondu est, à juste titre, la place du généalogiste dans un monde où la généalogie pourrait être faite en un clic. Pour elle son rôle principal sera de traiter ce qui n'a pas pu l'être automatiquement. Et elle cite l'ancêtre ayant changé de nom, les actes inexistants, et les recherches dans d'autres langues & pays. A mon sens ce n'est pas exact puisque bien des changements de nom sont archivés (et donc devraient pouvoir être tracés par les outils d'automatisation). De même des outils ne maitrisant pas le latin, le franco-provençal, le basque ou l'allemand ne permettrait pas de faire sa généalogie sur l'ensemble du territoire français.
Pour elle le généalogiste professionnel de demain se focalisera sur la généalogie biographique, la généalogie héraldique, la psychogénéalogie, ou encore la généalogie scientifique tandis que le généalogiste amateur, lui, ne s’arrêtera pas dans sa quête, car le chemin n’est pas sur un arbre en ligne, mais intérieur. Et vous qu'en pensez-vous ?
8 réactions
1 De Guillaume - 22/03/2018, 20:31
D'autres infos sur la paléographie automatique, sur le site des archives nationales anglaises
2 De Guillaume - 09/05/2018, 10:18
Les archives du Vatican s'intéressent également à la paléographie automatique
3 De Guillaume - 17/05/2018, 21:10
Il y a une initiative européenne appelée Transkribus dans le cadre du programme READ (Recognition and Enrichment of Archival Documents) qui propose un logiciel de paléographie automatique
4 De Guillaume - 08/12/2018, 18:09
Les premiers résultats de Transkribus sur Euronews
5 De Guillaume - 04/01/2020, 11:36
A voir également le projet LECTAUREP des Archives Nationales visant à révolutionner l'usage qui est actuellement fait des répertoires d'actes de notaires par les chercheurs et usagers des fonds notariés d'archives en développant une plate-forme équivalent à un véritable outil de transcription, lecture et analyse par ordinateur des écrits organisés dans le répertoire du notaire. Une présentation des difficultés et de l'avancement est faite sur le site du ministère de la Culture
6 De Guillaume - 10/11/2021, 19:31
Lancement de Socface, projet destiné à transcrire automatiquement et analyser les recensements français de 1836 à 1936. Coordonné par l'Ined,il associe archivistes, économistes et spécialistes d’intelligence artificielle
7 De Guillaume - 25/03/2022, 13:03
Tony Neulat sur Facebook donne les taux de réussite actuels visés par l'OCR
'Les projets les plus ambitieux visent un taux maximum d’erreur de 5% par caractère. C’est bien mais on en est encore loin à date.
Et même avec un niveau de qualité de 95 % par caractère, cela nous amène à un taux moyen d’exactitude de 70 % par nom de famille… (car la longueur moyenne d’un nom de famille étant de 7 caractères, 0,95 à la puissance 7 = 0,7).
Or, lorsque l’on recherche un ancêtre dans une base de données, on saisit généralement 2 mots-clés :
- soit le prénom et le nom
- soit son nom et celui de son conjoint
Dès lors, la combinaison de ces 2 mots-clés ne sera transcrite correctement qu’une fois sur deux ! (car 0,7 x 0,7 = 0,49)'
et nous prévient
'Je ne sais pas si les généalogistes du futur seront toujours à l’aise avec la paléographie mais ils auront intérêt à maîtriser la « proxigraphie » et l’utilisation des caractères joker lors de leurs recherches en ligne !'
8 De Guillaume - 16/10/2022, 15:36
Les Archives nationales font un point d'avancement sur leurs chantiers de sources archivistiques exploitées grâce à l’intelligence artificielle et en particulier les chantiers HIMANIS, SIMARA et LECTOREP.
C'est à lire sur le site du ministère de la Culture