Méthodologie

Le parcours méthodologique suivi durant tout ce projet est une partie importante à expliciter. Une analyse globale de ce journal n'ayant pas été faite, nombre des propositions apportées seront infirmées.

Première approche

Réflexion autour de la problématique

Après quelque moment de réflexion autour de ces textes et de leur potentiel contenu, la première approche développée a été la suivante.

« Quelle est la perception des lecteurs du Mercure Suisse de la politique internationale entre 1732 et 1782 ? Analyse au travers de l'examen de l'évolution des mentions de lieux géographiques dans le Mercure Suisse. »

Sachant que le travail allait se faire sur une quantité de textes importante, les problématiques ont toujours été liées à des analyses de mentions ou de tendances à travers le texte.

Cette première question de recherche aura finalement comme but de mieux appréhender le contenu de ces publications. Ce journal est riche d’une diversité importante tant dans la nature que dans le contenu des articles publiés.
En effet, une définition de problématique claire demande une connaissance poussée du texte à analyser, ce qui ne pouvait pas être le cas ici.
Ainsi, l’évolution des résultats présentés et des analyses proposées ont été le fruit d’un chemin méthodologique mouvementé.
La problématique présentée ci-dessus se voulait volontairement élargie. Elle nous permet d’approcher ce journal de différentes manières.

Méthodologie

En premier lieu, il a été important de ré-océriser le journal. La dernière océrisation datant de plusieurs années, une amélioration pouvait être attendue grâce à l’évolution de ces algorithmes.

Afin de pouvoir extraire des lieux de ces textes, un algorithme de Natural Language Processing, Spacy, a été utilisé. Grâce à celui-ci, il est possible de déterminer quels mots dans une phrase pourraient être des lieux. En se limitant à des lieux ayant un minimum de mentions, il est possible de voir alors l’évolution de ces mentions au fur et à mesure des publications.

En récupérant les coordonnées de latitude et de longitude de chacun de ces lieux, nous pouvons alors créer une carte montrant, par des cercles de taille variable, l’évolution de mention de chaque lieu.

Ce premier résultat a été amélioré au gré des changements de problématique pour être finalisé dans l’onglet lieux cités.

S’appuyant sur les premières lectures de ces publications, l’objectif était de lier ces analyses de mentions à des événements historiques du XVIIIe siècle et analyser plus attentivement ces articles en particulier. Afin d’automatiser le travail, le but était également d’utiliser des algorithmes de Sentiment Analysis afin de comprendre le point de vue du journal ou de ses auteurs à propos d’un événement.

L’observation de ces mentions a montré que les événements historiques majeurs du XVIIIe siècle n’étaient pas en tout temps relatés dans ce journal. En effet, les articles écrits par ces différents auteurs ne sont que très peu tournés vers l’actualité et l’analyse de ces événements. Peu d’exceptions ont pu être notées.

Cette approche a également amené la possibilité d’utiliser des méthodes de Topic Modelling (Latent Dirichlet Allocation) qui permettent de classer des documents selon des thématiques. Pour le siècle des lumières, durant lequel ce journal est publié, il aurait été intéressant de développer cette approche et voir l’influence et la propagation de ces idées. Les seuls paramètres à fixer sont le nombre de thèmes voulus et la taille des publications. Malheureusement, pour des raisons de temps et de puissance computationnelle, cette méthode n’a pas été retenue.

Ces quelques observations nous ont menés à abandonner cette approche. Nous avons tout de même pu développer un visuel intéressant avec la carte des occurrences et améliorer notre champ de vision à propos de ce journal.

Deuxième approche

En deuxième lieu, à la suite des résultats précédents, une nouvelle problématique a été définie. Son but a été de nous recentrer sur l’Europe, la Suisse.

« De quelle manière, avec quelles thématiques étaient mentionnées les villes vaudoises pendant le XVIIIe siècle ? Analyse par Topic Modelling lors de discontinuité dans le nombre de mentions de lieux »

En effet, après une analyse sommaire de la carte d’occurrence, il a pu être remarqué que certains lieux romands, vaudois étaient mentionnés soudainement de manière importante. Cette observation a mené vers cette problématique qui malheureusement sera bien vite abandonnée.

Un autre problème qui sera décrit plus en détail ci-dessous est que certaines mentions de villes ne le sont pas vraiment. Certaines discontinuités dans le graphe d’occurrences ne correspondent en rien à un événement, une histoire en rapport avec la ville.

Cela montre également qu’il est complexe de se focaliser sur de petites voire moyennes villes. Les pics d’occurrences trouvés sont généralement des erreurs venant des divers algorithmes que nous utilisons.

Ainsi, cette approche fut malheureusement abandonnée.

Troisième approche

Finalement, afin de produire des résultats plus détaillés sur ce journal, la dernière méthodologie qui a été choisies se trouve être plus manuelle. Le travail d’analyse de manière automatique ne donnant pas de résultats probants, il est plus intéressant d’observer directement de quoi parlent certains articles, tout en se basant sur les évolutions de mentions pour sélectionner les articles à analyser.

Le dernier obstacle à résoudre est le choix des articles. Quels articles lire, quelles publications ouvrir ?

Il y aura deux possibilités. La première vise à sélectionner quelques éléments de discontinuité de villes européennes et quelques éléments de discontinuité de villes romandes et par ce choix, pouvoir expliquer pourquoi ce nombre de mentions change soudainement. Malheureusement, les typologies particulières de ces articles empêchent de ressortir des éléments historiques intéressants.

À la suite de cette expérimentation, il est devenu très intéressant d’étudier non pas en détail le contenu de ces articles mais plus leur typologie.

Pour finir, le choix a été fait de se concentrer sur trois ou quatre villes sur lesquels des éléments intéressants en termes de typologie pouvaient être mis en lumière. La ville de Genève étant mentionnée souvent tout au long du Journal Helvétique, les variations d’occurrences du nom de la ville se trouvent être intéressants à analyser selon la typologie des articles.

Limitations

Certains éléments ont été limitants dans la complétion de ce projet. En premier lieu, cette source n’a pas encore été analysée de manière globale. Quelques sources secondaires mentionnent certains articles et œuvres publiées dans le Journal Helvétique mais sans possibilité d’analyse globale. Nos différentes approches s’inscrivent dans une autre méthodologie en vue d’analyser ce journal certainement influent à une échelle régionale et au-delà à certaines périodes.

Dans nos différentes approches, nous utilisons toujours les textes océrisés. L’océrisation n’est jamais idéale et un certain nombre d’erreurs apparaissent dans les textes. Grâce à des corrections, le nombre d’erreurs a pu être réduits (en joignant les mots séparés en fin de ligne par un trait d’union, en remplaçant les f par des s). Une erreur commune d’OCR pour les textes imprimés de cette époque est le s long ( ſ ). En ressemblant fortement à un f, il est souvent confondu et crée des erreurs dans le texte océrisé.

Dû à ces erreurs dans les textes à analyser, nous devons accorder une légère différence entre chaîne de caractères afin que les mentions de lieux soient représentatives. La distance de Levenshtein est alors utilisée pour comparer ces chaînes de caractères et trouver celles qui sont similaires, différences souvent dû à une erreur d’océrisation. Malheureusement, cette permissivité apporte également des mots qui ne devraient pas être considérés ensemble. Ainsi « Paris » et « Pais » (ancienne écriture de « pays ») se retrouvent dans les mêmes mentions. La ville de Gland ne pouvait également pas être analysée de cette manière, étant à un seul caractère de « grand ».

Afin d’affiner ces recherches de villes, nous avons utilisé un algorithme de Natural Language Processing, Spacy. Grâce au contexte d’une phrase, il détermine la nature du mot. Ainsi, un nom de ville, de pays, de village doit être classé comme « lieu ». Malgré une prétendue résistance aux erreurs d’océrisation (fonctionnant au contexte), l’algorithme ne produit pas des résultats très convaincants. Ainsi, en mai 1745, la ville d’Aigle est mentionnée soudainement un nombre important de fois. Malheureusement ce nombre s’explique très simplement par la description d’un blason comprenant un aigle. Cette méthode n’est alors pas très robuste.

Finalement, il peut être intéressant de mettre en perspective l’utilisation du nombre de mentions de lieux afin d’extraire des éléments intéressants. En effet, les articles mentionnant de nombreuses fois un nom de villes sont généralement d’une typologie assez particulière. Le journal ne réagissant qu’assez faiblement à l’actualité, ces publications sont souvent des événements historiques passés racontés, expliqués dans le journal. Une autre méthode pourrait mettre en lumière d’autres typologies.