Presses anciennes et modernes à l'ère du numérique

Explorer un siècle de romans-feuilletons en Occitanie : perspectives méthodologiques et premières expérimentations numériques

Table des matières

JADE PÉTRAULT

Cet article s’inscrit dans le cadre d’une thèse qui porte sur l’exploration d’un siècle de feuilletons littéraires publiés dans la presse occitanienne, entre 1850 et 1940. Ce vaste sujet repose sur une commande spéciale de la région Occitanie, qui finance une partie de la thèse dans une perspective de valorisation de ce patrimoine régional des XIXe et XXsiècles. Mais répondre à cette injonction de valorisation tout en mobilisant une démarche de recherche universitaire fait émerger une première ambiguïté, puisque les réalités actuelles et passées de l’Occitanie ne coïncident pas. En effet, au XIXe siècle, l’Occitanie s’apparentait davantage à une zone culturelle et linguistique qu’à la région politique bornée de frontières fixes que nous connaissons aujourd’hui, fruit d’une politique territoriale menée sous le quinquennat de François Hollande.

En outre, une autre difficulté relative à la faisabilité de la thèse surgit, lorsque l’on fait face à la riche collection de presse numérisée de la région Occitanie, de près de 175 journaux, publiés sur la plateforme « Ressources Patrimoines1 ». Le site « Presse locale ancienne » de la Bibliothèque nationale de France recense quant à lui plusieurs centaines de titres de périodiques de la région : 200 d’entre eux sont encore en cours de numérisation, en amont d’une publication en ligne. Le dépouillement d’une cinquantaine de premiers titres de journaux a permis de collecter près de 350 feuilletons littéraires. Recueillir une telle quantité de données à partir d’un dixième du corpus de presse envisagé seulement, conduit, d’une part, à prendre conscience des limites d’une collecte manuelle et d’autre part, à affiner les contours du sujet de la thèse.

La vérification d’hypothèses établies lors de la cueillette et du survol des feuilletons a porté ses fruits. Lors du travail de fouille des journaux, on remarque que certains périodiques d’Occitanie s’emploient à mettre à l’honneur non seulement des auteurs de leur cru, mais également des fictions directement inspirées de la culture, des paysages ou de l’histoire de la région. On a ainsi émis l’hypothèse que les journaux mèneraient une possible politique feuilletonesque visant à faire la part belle à l’Occitanie. Une étude à la loupe d’un premier échantillon de 92 feuilletons littéraires du Furet nîmois, du Journal de Cette et du Courrier dUzès s’est avérée concluante2 : on observe qu’un tiers d’entre eux entretiennent un lien particulier avec l’Occitanie; autrement dit, que 30 des 92 feuilletons proviennent de la plume de feuilletonistes locaux, et/ou traitent de la géographie ou du patrimoine de la région. De plus, on constate que ces différents critères coïncident avec ceux de la littérature régionale établis par René Dionne dans son ouvrage La Littérature régionale aux confins de l’histoire et de la géographie. En effet, appartiennent à cette littérature les œuvres qui ont trait à une région par « le lieu de naissance, de résidence ou de travail de leurs auteurs ou encore par leur contenu (sujet, thèmes, personnages, situation d’une action romanesque, etc.)3. » Ainsi, la mise en lumière de cette littérature régionale faisant la part belle à l’Occitanie dans la presse facilite la restriction du corpus autour d’un angle thématique spécifique et d’une véritable problématique scientifique. Si ces pistes permettent également de poser un cadre théorique, de répondre aux nécessités premières en affinant le sujet de la thèse, en combinant démarche scientifique et geste de valorisation, elles ne permettent cependant pas de surmonter le problème de la collecte manuelle des feuilletons, très couteuse en temps. Une étude à la loupe de chaque feuilleton collecté, ayant pour objet de déterminer ou non son appartenance à ce corpus de littérature régionale, ne semble pas non plus une méthode viable face à la quantité de données qu’il reste à explorer.

Puisqu’elles rendent possible et facilitent le travail de fouille, de moissonnage, d’analyse et de valorisation de big datas, les humanités numériques semblent être la voie évidente à privilégier pour faire face à ces obstacles. C’est pourquoi il convient de se demander quelles perspectives méthodologiques et approches numériques adopter pour faciliter ce travail de collecte des feuilletons, mais aussi détecter leur potentielle appartenance au corpus de littérature régionale. Après un nécessaire détour méthodologique visant à démontrer l’importance d’une approche outillée au service de la constitution du corpus, on s’attachera à analyser les premiers résultats obtenus et à discuter des limites potentielles des outils numériques.

Perspectives méthodologiques. Une approche outillée au service de la constitution du corpus

Comme on vient de l’évoquer et comme le suggère le titre de cet article, on commencera par expliquer qu’une approche outillée permet, d’une part, d’élargir la focale d’étude à une plus grande échelle et d’autre part, d’effectuer, par conséquent, davantage de manipulations et d’analyses à partir des données.

Collecte des feuilletons

La première piste visant à remplacer une méthode de collecte manuelle réside dans l’utilisation d’un script de détection du feuilleton développé par Pierre-Carl Langlais et intégré dans une base en ligne de R studio, hébergée par l’infrastructure Huma-Num. Il s’agit d’un script de « reconnaissance spatiale », grâce auquel « l’objet éditorial du feuilleton est reconnu à partir d’une segmentation automatisée de la page du journal4 ». La détection automatique des rez-de-chaussée des journaux nécessite de posséder au préalable les données sous le format ALTO. Comme le mentionne la BnF, les ALTO constituent l’un des « formats les plus couramment utilisés pour la conversion des textes contenus dans des images de documents patrimoniaux5. » Ce format possède de plus la particularité de « conserve[r] toutes les coordonnées géométriques des contenus […] dans l’image et permet la superposition de l’image et du texte […] ainsi que la surbrillance des mots recherchés lors d’une requête6. » Lancé à partir d’un échantillon du corpus, à savoir les numérisations du Courrier du Gard entre les années 1840 et 1856, le script a permis par exemple de détecter 481 259 lignes de feuilletons, résultats que l’on peut exporter sur Excel.

Détection des romans-feuilletons

Ces 480 000 lignes méritent ensuite d’être filtrées de manière plus fine, afin d’éliminer les feuilletons qui se situent hors du périmètre de l’étude, tels que les critiques littéraires ou les notices historiques par exemple, dans l’optique de ne conserver que les œuvres romanesques. Le script de « classification des textes7 » de Pierre-Carl Langlais rend possible cet affinage. Pierre-Carl Langlais rappelle notamment que « l’identification du roman-feuilleton repose sur les modèles de détections des genres journalistiques développés par Numapresse », puisque « les feuilletons ne publient […] pas que des romans en série mais aussi de nombreux textes : critiques théâtrales, chroniques scientifiques, billets d’humeur8. » À l’issue de la manipulation, une marge d’erreur est à prendre compte cependant. Le nouveau fichier n’indique en effet pour chacune des 7000 lignes obtenues qu’une probabilité d’appartenance à la catégorie roman-feuilleton.

Vérifications et nettoyage

Après l’élimination des lignes à faible probabilité et aux dates de publication antérieures à la période étudiée, le nombre final de lignes a été divisé par 10 soit un total de 700 sur les 480 000 lignes initiales. On a ainsi pu retrouver, par exemple, à quelques dizaines d’exceptions près, presque l’intégralité des lignes correspondant au roman-feuilleton Le Renard de Montferrand9, découvert lors de la phase initiale de collecte manuelle.

Création d’un script de détection des villes d’Occitanie

Si ce premier moissonnage s’est avéré fructueux, l’ancrage local du titre, Montferrand, ce village d’Occitanie, rappelle quant à lui qu’il reste encore à chercher une alternative à la sélection manuelle des feuilletons qui font la part belle à leur région. Il convient donc de réfléchir à la façon dont on pourrait déléguer cette tâche à l’ordinateur. L’objectif consiste à lui faire reproduire le travail qui, manuellement, consiste à : lire les feuilletons un à un; relever les lieux cités dans les épisodes; vérifier leur appartenance à la région Occitanie. Pour ce faire, on a d’abord constitué, à partir de scraping, une liste de tous les noms des communes des départements d’Occitanie et des principaux lieux, monuments, forêts, fleuves, montagnes, etc. Comme on s’est appuyé sur des listes préétablies par l’INSEE, de communes actuelles de l’Occitanie, on a entrepris manuellement d’ajouter l’ancienne orthographe des villes dont le nom différait au XIXe siècle. On a également enrichi cette vaste liste d’adjectifs relatifs à ces communes et d’un lexique propre à la région (midi, méridional, Languedoc…). Au total, cette base comprend près de 9000 lemmes. Daouda Niane, chargé d’analyse de corpus et de données du projet Numapresse, s’est occupé de la partie technique : la création d’un script de détection de ces noms de villes et lieux d’Occitanie.

Pour réaliser ce script, il a fallu dans un premier temps importer dans R le nouveau fichier rassemblant les données topographiques; puis effectuer un nettoyage, pour par exemple supprimer les retours à la ligne ou retirer les espaces superflus. Pour finir, il a été nécessaire d’opérer un croisement entre le fichier de romans-feuilletons issu du moissonnage automatisé et ce nouveau fichier rassemblant les villes et lieux de la région. Lorsque le script termine sa boucle de détection des lieux, on exporte les résultats au format CSV. Le tableur comprend alors plusieurs colonnes, dont le nom de la ville associé à la ligne de texte où il apparaît.

Analyses des résultats issus des premières expérimentations numériques et essais de visualisation

Afin de vérifier le bon fonctionnement du script, on a comparé les résultats recueillis de manière automatisée à ceux obtenus de façon manuelle pour les feuilletons du Courrier du Gard. Si ces derniers sont identiques, chacune des méthodes possède un avantage sur l’autre : la méthode manuelle permet de déceler des lieux plus précis à l’intérieur des villages cités, comme la Chênaie, la grotte ou les ruines de Montferrand, tandis que la méthode de collecte automatisée permet d’obtenir le nombre précis d’occurrences.

Tester le script à partir d’un autre échantillon de feuilletons du Courrier dUzès et de son arrondissement, bimensuel qui paraît entre 1879 et 1880, s’est avéré fructueux également : au total, 45 lignes de noms de villes apparaissent pour le roman-feuilleton et les deux nouvelles en feuilletons détectés au préalable. Pour vérifier à quel feuilleton appartient une ligne, on se reporte aux colonnes « date » et « numéro de page », puis l’on recherche le numéro correspondant à ces indications sur le site Ressources Patrimoines. Après vérification, il s’avère que les trois publications feuilletonesques Débora la Bohémienne10, Sous les arceaux11! et Andrette12 comportent toutes plusieurs occurrences de villes occitaniennes. On peut ainsi conclure que ce journal opte pour une politique de 100 % de feuilletons inspirés des couleurs locales.

Grâce à l’existence des lignes de texte qui atteste de la présence du lieu, on a pu mesurer plusieurs limites liées à la liste initiale des noms de villes. Si l’on prend le cas du Courrier dUzès en effet, l’on fait face, parmi les résultats, à quelques problèmes relatifs aux homonymes. Par exemple, l’on ne dénombre pas moins de 83 occurrences pour la ville de Sète, dans sa précédente orthographe, « Cette ». Or, après vérification, parmi ces occurrences figurent uniquement des déterminants démonstratifs; ce qui contraint par précaution à retirer cette ville de la liste pour la suite des expérimentations afin de réduire le nombre de résultats biaisés.

Le même problème surgit pour le terme « midi », qui apparaît à la fois dans son acception temporelle (indication de l’heure) et dans son acception géographique (indication du lieu), donc qu’il s’agit d’étudier manuellement. Cette présence du « midi » comme endroit se révèle tout de même porteuse de sens. Le midi se définit, selon Hervé Terval, comme l’« un des noms de l’Occitanie, particulièrement de l’Occitanie… “méridionale” (Languedoc, Provence) ou méditerranéenne13. » « Méridional » et « Languedoc » sont d’ailleurs des termes récurrents détectés par le script. Ces trois termes qui se trouvent associés dans cette définition attestent bien de la difficulté de cerner les contours de l’Occitanie. Il en est de même pour l’évocation de la Provence à l’intérieur de cette définition, qui invite à faire abstraction des limites actuelles de la région Occitanie et à l’appréhender également en tant que zone culturelle et linguistique.

Bien qu’il soit difficile d’étendre les investigations à l’ensemble des journaux du midi par souci de faisabilité, il est possible, cela dit, de mettre en lumière l’influence des villes des régions limitrophes, comme la Provence où circulaient également la langue d’oc et la culture occitanienne au XIXe siècle. En effet, lorsqu’on lance le script de détection des villes à partir d’un fichier contenant non plus les noms des villes de l’Occitanie actuelle, mais celles de la région Provence Alpes Côte d’Azur, on détecte par exemple, pour le Furet nîmois et le Courrier du Gard, la présence des occurrences telles que « Provence », « Marseille » ou encore « Nice ».

Des essais de visualisations cartographiques permettent d’éclairer notre propos. Le site internet Umap14 en open source offre la possibilité de créer automatiquement des cartes grâce à l’importation d’un fichier CSV contenant les coordonnées géographiques (latitude et longitude) de lieux. Après avoir inséré ces données manquantes dans le tableur Excel des feuilletons du corpus de littérature régionale, puis importé le fichier en ligne, les points des villes se placent de manière instantanée à l’écran. On a ensuite ajouté les villes sièges du Courrier du Gard et du Courrier dUzès, à savoir Nîmes et Uzès, que l’on a reliées à chaque ville rencontrée dans les fictions. De cette cartographie qui met ainsi en lumière une constellation d’histoires locales en en montrant l’étendue, on constate un rayonnement presque similaire d’un journal à l’autre : les villes citées dans les fictions se situent plutôt à l’ouest de l’emplacement de leurs journaux. Un premier groupe de communes se situe dans un rayon de 90 kilomètres des deux villes sièges; tandis qu’un second groupe de villes prend place dans un rayon de 270 kilomètres des sièges des journaux.

Même si l’ensemble des périodiques n’a pas encore été passé au crible à l’aide des différents scripts, on a pu tout de même compléter cette carte avec les villes d’Occitanie repérées lors de microlectures des feuilletons d’un autre périodique, le Journal de Cette. Cette visualisation cartographique assortie d’une nouvelle constellation montre qu’une autre logique affecte ce journal : un rayonnement multidirectionnel des villes qui s’étend de toutes parts. Cela peut témoigner de la volonté du périodique de promouvoir un large patrimoine, qui va de l’étang de Thau bordant Sète jusqu’à Tarbes, Bagnols-sur-Cèze ou encore Rodez, situés dans un rayon de 300 kilomètres du siège de ce quotidien.

Fig1

Carte réalisée à partir du site : http://umap.openstreetmap.fr

Il sera intéressant de superposer à l’avenir les résultats de l’ensemble du corpus afin d’observer une potentielle évolution de la zone et la diversité des logiques de rayonnement. Enfin, il reste à placer sur la carte la poignée de villes de la région Provence-Alpes-Côte d’Azur détectées par le script à partir de nos échantillons, ainsi que les communes recensées lors des microlectures. Sur cette nouvelle visualisation cartographique, les contours d’une plus vaste zone semblent se dessiner à l’est, principalement sur l’ancienne région de Provence. Analyser à terme la proportion de ces villes limitrophes à l’échelle du corpus pourra permettre de mesurer l’influence de ces anciennes régions sur cette littérature régionale.

Carte qui montre les différents lieux représentés dans les trois journaux susmentionnés.

Carte réalisée à partir du site : http://umap.openstreetmap.fr.

Conclusion

Cet article a été l’occasion de mettre à l’épreuve des approches méthodologiques envisagées dans le cadre de la thèse et d’amorcer de premières expérimentations outillées, afin de répondre aux objectifs de départ et de contourner les obstacles initiaux. En effet, face à une importante masse de données, l’approche de collecte et d’analyse manuelles des feuilletons s’avère limitée. Cette étude a ainsi veillé à montrer la négociation et les tâtonnements qui s’opèrent dès cette phase de collecte des feuilletons, lorsque l’on recourt à la solution des humanités numériques. Celles-ci permettent de réfléchir à de nouvelles perspectives de recherche et invitent à adopter des approches méthodologiques innovantes de fouille de texte.

Dans l’optique de faciliter le travail de collecte des feuilletons, mais également de détecter leur possible appartenance au corpus de littérature régionale, il a été nécessaire de procéder en plusieurs étapes : d’abord, utiliser les scripts de détection du feuilleton et de classification du roman-feuilleton conçus par Pierre-Carl Langlais; ensuite, effectuer quelques vérifications manuelles et opérer un nettoyage des données; puis constituer une base de lieux d’Occitanie et des régions limitrophes; enfin, développer un script de détection de ces lieux.

Les difficultés rencontrées lors de ces diverses étapes témoignent de la nécessité de croiser les approches employées. Face aux aléas techniques, l’approche manuelle de vérification ou de nettoyage des données par exemple se révèle fertile et complémentaire à la méthode outillée. Les premiers tests du script de détection des villes à partir d’échantillons ont fait leurs preuves : les occurrences détectées sont similaires à celles collectées à la main. Ce script a permis, en outre, d’obtenir de premières données topographiques nécessaires à l’étude de la mise en scène des couleurs locales dans les fictions. À ce stade des recherches, la visualisation des résultats sous forme de cartes constitue un premier geste de valorisation. Leur interprétation met au jour les points communs comme les différences de rayonnement, de stratégies de valorisation ou de promotion du patrimoine local à l’œuvre dans les feuilletons des journaux étudiés.

Les feuilletons littéraires dans lesquels le script n’a détecté aucune ville locale devront faire l’objet d’une vérification, et ce pour deux raisons principales. La première a trait aux procédés d’écriture spécifiques qui permettent d’évoquer des lieux de manière discrète ou déguisée. L’implicite et la périphrase à titre d’illustration rendent la détection du lieu impossible pour le script.

L’autre raison qui invite à se pencher sur les feuilletons non retenus concerne le second critère de la littérature régionale, à savoir l’identité des auteurs. En effet, le script de détection des villes s’appuie sur le critère de rattachement d’une œuvre à la région par son « contenu ». Il n’est pas donc pas capable de déceler les liens, « le lieu de naissance, de résidence ou de travail15 » pour reprendre les mots de René Dionne, qui unissent les feuilletonistes à la région Occitanie. Au fil des avancées et afin d’augmenter les capacités de détection du script, il sera nécessaire d’intégrer à la liste des toponymes occitaniens les noms des auteurs ayant un lien avéré avec la région. Les célèbres frères nîmois Alphonse et Ernest Daudet en feront de toute évidence partie.

Notes

1 https://ressourcespatrimoines.laregion.fr/collections/presse-ancienne.

2 Nous nous proposons de poursuivre une réflexion amorcée dans le cadre d’une précédente communication : Jade Pétrault, « Trois journaux occitaniens et leurs feuilletons (1879-1915) : d’une constellation d’histoires locales au rayonnement d’une littérature régionale », Journée doctorale du RiRRa21 Work in Progress, Leïla De Vicente, Thierry L’hôte, Betty Zeghdani (dir.), Université Paul Valéry Montpellier 3, 2022.

3 René Dionne, La Littérature régionale aux confins de lhistoire et de la géographie : étude, Sudbury, « Ancrages », 1993, p. 23.

4 Pierre-Carl Langlais, « Modéliser le feuilleton. Créer et analyser une nouvelle archive patrimoniale avec les méthodes computationnelles », Colloque Humanistica 2021. Recueil des résumés, Rennes, 2021, p. 58, https://humanistica2021.sciencesconf.org/341938.

5 « Techniques et formats de conversion en mode texte », Bibliothèque nationale de France, https://www.bnf.fr/fr/techniques-et-formats-de-conversion-en-mode-texte.

6 Ibid.

7 Pierre-Carl Langlais, « Modéliser le feuilleton », op. cit., p. 59.

8 Pierre-Carl Langlais, « Modéliser le feuilleton », op. cit., p. 59.

9 A. Jampière, Le Renard de Montferrand, in Courrier du Gard, 11 janvier 1855 - 6 février 1855.

10 Adolphe Pieyre, Débora la Bohémienne, in Courrier d’Uzès et de son arrondissement, 18 mai 1879 - 4 avril 1880.

11 Gustave Téraube, Sous les arceaux!, in Courrier d’Uzès et de son arrondissement, 14 décembre 1879 - 11 janvier 1880.

12 Gustave Téraube, Andrette, in Courrier d’Uzès et de son arrondissement, 5 octobre 1879 - 30 novembre 1879.

13 Hervé Terral, L’Occitanie en 48 mots, IEO Editions, 2014, p. 145-146.

14 http://umap.openstreetmap.fr.

15 René Dionne, La Littérature régionale aux confins de lhistoire et de la géographie : étude, op. cit., p. 23.

Pour citer ce document

Jade Pétrault, « Explorer un siècle de romans-feuilletons en Occitanie : perspectives méthodologiques et premières expérimentations numériques », Presses anciennes et modernes à l'ère du numérique, actes du congrès Médias 19 - Numapresse (Paris, 30 mai-3 juin 2022), sous la direction de Guillaume Pinson et Marie-Eve Thérenty Médias 19 [En ligne], Dossier publié en 2024, Mise à jour le : , URL: https://www.medias19.org/publications/presses-anciennes-et-modernes-lere-du-numerique/explorer-un-siecle-de-romans-feuilletons-en-occitanie-perspectives-methodologiques-et-premieres-experimentations-numeriques