Corpus annotés en langues anciennes


Dominique Longrée, Fabio Nolfo et Marc Vandersmissen

(Projet de recherche F.R.S.-FNRS - PDR FNRS - 2019)

Motifs textuels ovidiens et littérature latine tardo-antique : recherche textométrique sur la réception de l’œuvre d’Ovide chez les poètes et prosateurs latins de la fin de l’Antiquité.

Ce projet vise à étudier l’influence des modes d’expression linguistique du poète latin Ovide sur les œuvres littéraires de la fin de l’Antiquité, en particulier sur les poésies tardo-antiques latines païenne et chrétienne. Des méthodes d’analyse textométrique innovantes (approche topologique) permettront de mieux comprendre comment le patrimoine littéraire classique a été intégré par les poètes du IVème et du début du Vème siècles, maillons essentiels d’une transmission vers les siècles suivants.

Service d’Égyptologie

Le projet Ramsès – Ramses online.

Le projet Ramsès a pour but de constituer et maintenir à jour un corpus électronique richement annoté rassemblant l’ensemble des textes écrits en néo-égyptien (c. 1350-800 av. J-Chr.). Allant au-delà de la simple saisie informatique de l’égyptien sous forme translittérée, il s’agit du premier corpus dans lequel les textes égyptiens sont encodés dans l’écriture hiéroglyphique originale. Cet outil – innovant à la fois dans le domaine de l'égyptologie et, par les méthodes mises en œuvre, dans celui de la linguistique de corpus – est enrichi d’annotations ecdotiques et linguistiques (morphologique, syntaxique et sémantique) qui permettent aux philologues et aux linguistes des recherches approfondies sur les textes et la langue des pharaons du Nouvel Empire. Les données du Projet Ramsès sont conservées dans une base MySQL au sein de laquelle les textes sont encodés en .xml ; l’interface d’encodage est écrite en Java. Le corpus rassemble à ce jour un peu plus de 5000 textes avec 550 000 mots-formes et 70 000 graphies hiéroglyphiques distinctes pour les 10 000 lemmes enregistrés. Depuis 2015, l’interface Ramses Online donne plein accès à une sélection de textes de ce corpus (65 000 tokens), une partie des fonctionnalités de recherche étant réservée aux utilisateurs enregistrés.

 

THesaurus and OnTology for documenting Ancient Egyptian Resources – THOT.

Le projet THOT propose une série de thésaurus multilingues permettant de documenter les ressources textuelles égyptiennes. Développés en collaboration avec l’Académie des Sciences de Berlin et financés par l’Anneliese-Maier Forschungspreis de J. Winand, les vocabulaires contrôlés de Thot couvrent les domaines qui suivent : datation, localisation, langue, écriture, matériau, type d’objet, état de conservation, genre textuel. Ces thésaurus se conforment au standard ISO 25964-1 est sont implémentés en SKOS (Simple Knowledge Organizational System). Chaque concept repris dans un thésaurus est identifié par un URI (Unique Resource Identifier) et comprend une série d’informations (ou éléments-SKOS), comme les termes préférés pour ce concept dans différentes langues, une note définitionnelle, des références à des concepts parents ou enfants, etc. Ce projet s’inscrit donc dans le développement des linked open data et du web sémantique, et permettra à terme l’interrogation croisée de divers corpus et bases de données à travers un jeu unique de métadonnées multilingues, strictement définies et hiérarchisées.

Partagez cette page