Le projet ANR IThaC a été l'occasion de la mise en œuvre et du développement de plusieurs méthodes et outils liées aux données a étudier.
Des données encodées dans un format FAIR : la TEI. Ce format XML développé par le consoritum international du même nom est largement utilisé par la communauté. Il permet une représentation précise et efficace des textes, l'interopérabilité et l'intercompréhension des données, mais aussi une manipulation des données facilitée grâce à l'existance de languages spécifiques au format XML.
Un ODD pour définir un schéma spécifique à l'encodage de paratextes et de leur traduction. Nous n'avons pas eu besoin d'utiliser l'intégralité du vocabulaire de la TEI pour ce projet. Nous avons donc rédigé un schéma d'encodage plus spécifique en sélectionnant uniquement les éléments et attributs utiles au projet. Cette réduction du vocabulaire de la TEI a été lui-même rédigé en TEI, grâce au module tagdocs
sous la format d'un fichier ODD. À partir de cet ODD, nous générons un fichier RNG (lié au sein des fichiers TEI des paratextes, il permet de garantir la conformité du paratexte selon le shcméa propre au projet IThAC), mais aussi un manuel et une vue synthétique des éléments utilisés.
l'ODD et tous les fichiers liés sont disponibles sur notre portail DOE (Documentation ODD d'ELAN) : http://doe.elan-numerique.fr/
XSLT pour les manipulations XML. Tous les traitements de données ont été fait grâce au langage XSL et c'est donc une transformation XSL (dit XSLT) qui permet d'obtenir des fichiers dans des formats web (HTML et JSON principalement) ou encore ODT (pour l'export des paratextes). Ces XSL sont accessibles sur notre gitlab: https://gricad-gitlab.univ-grenoble-alpes.fr/elan/ithac/-/tree/master/application/data/xsl
Les données sont accessibles sur l'entrepôt Recherche Data Gouv : https://doi.org/10.57745/TYD3GW. La V1 du jeu de données ne comporte pas les traductions.
Un développement web ouvert. Le site sur lequel vous vous trouvez est un développement sous licence libre accessible sur notre gitlab : https://gricad-gitlab.univ-grenoble-alpes.fr/elan/ithac.
Une partie publique pour voir le corpus, les paratextes et en savoir plus sur le projet et les données. Le site propose de nombreuses visualisation des données. Ces vues sont issues du travail conjoint d'ELAN (équipe d'ingénieur.e.s en humanités numériques de Litt&Arts, UMR 5316, UGA/CNRS) et de deux prestataires, Maxime Bouton et Vincent Maillard (Protocole Astral).
L'« Explorer », véritable outil d'exploration des données, est facilement adaptable à différens jeux de donnée. Il a ainsi été réutilisé pour de nombreux autres projets (en savoir plus sur l'Explorer).
L'ensemble de ces développements est accessible sur notre gitlab : https://gricad-gitlab.univ-grenoble-alpes.fr/elan/ithac
De multiples accès et visualisations du corpus et des paratextes.
Le menu Paratextes donne accès au corpus selon deux modes : par choix successifs, avec le sous-menu Auteurs anciens ou bien grâce à une vue d'ensemble de tous les paratextes sous forme de tableau, la liste des paratextes.
Les menus Explorer et Visualiser permettent eux aussi d'accéder à des vues du corpus de paratextes. Leur usage est détaillé dans les sections successives.
Plusieurs modes d'emploi ont été réalisés afin d'expliquer l'usage de la vue d'un paratexte, les différents accès à un paratexte,
l'exploration du corpus par choix hiérarchiques et la visualisation carto-chronologique du corpus.
Un accès privé pour le travail collaboratif de l'équipe.
La plateforme permet des gérer des comptes utilisateurs. Les membres de l'équipe peuvent créer un compte utilisateur et en se connectant accéder à des fonctionnalités supplémentaires :
Deux API pour des données interopérables. Deux API sont disponibles pour accéder aux données : l'API paratexts-extended
renvoit la liste des paratextes accompagnés d'un ensemble de métadonnées (accès direct) et l'API paratexts-nested
renvoit une liste des auteurs et identifiants de paratextes regroupés par année, lieux, auteur antique, titre du paratexte (accès direct).