Naviguer dans 200 ans d'archives de presse

© 2016 EPFL

© 2016 EPFL

Le DHLAB, Le Temps et la Bibliothèque nationale suisse se sont associés pour lancer un nouveau site de consultation des archives numérisées du Temps (comprenant la Gazette de Lausanne et le Journal de Genève).

Toute nouvelle recherche d’archive ne se limite plus à énumérer les articles dans lesquels un mot apparaît, comme le font les moteurs de recherche classiques, mais indique l’évolution du nombre d’occurrences de ce mot au fil des ans. Cet aperçu chronologique permet à l’internaute de visualiser en un coup d’œil la fréquence d’un terme à travers plus de deux cents ans d’histoire et de se focaliser sur la période qui l’intéresse. Ce moteur de recherche ouvre de nouvelles perspectives tant aux professionnels qu’à un vaste public.

Parallèlement à la recherche lexicale, l’équipe du DHLAB a conçu un outil d’extraction permettant d'identifier tous les lieux et les personnes dans les 4 millions d’articles de l’archive, ainsi qu’un certain nombre de caractéristiques les concernant. Une base de données de 50 millions de mentions d’entités est mise en ligne aujourd’hui et interrogeable à travers un outil de recherche sémantique. Il devient par exemple possible de demander au système toutes les fonctions occupées par une personne au fil des ans, ou de trouver tous les articles impliquant des intervenants exerçant des métiers ou fonctions spécifiques. Ce sont autant de requêtes impossibles à formuler lorsqu'on se limite à la recherche classique de mots. Cette immense base de données est elle-même interconnectable aux autres bases du Web sémantique. Elle s’enrichira par ces nouvelles connexions et viendra nourrir les autres bases, donnant à l’histoire suisse une place sans précédent dans des bases de données mondiales.

Les étudiants et chercheurs du laboratoire d'humanités digitales exploitent les archives historiques du Temps dans leurs travaux scientifiques et planchent déjà sur d’autres applications publiques, au premier rang desquelles plusieurs projets se penchent en particulier sur une approche «big data» de ces archives. Ils cherchent par exemple à analyser l’évolution de la langue française à travers les années, la manière dont le traitement de certains sujets perdure ou se modifie dans l’histoire et inversement, ou les caractéristiques qui permettent d’automatiquement dater un texte selon son style et son contenu.

Pour ce projet, le DHLAB a bénéficié d'un poste de post-doctorant financé par la Bibliothèque nationale suisse.