Lorsqu’on analyse les sources les plus utilisées par ChatGPT, deux noms reviennent systématiquement : Wikipédia et Reddit. Leur présence massive dans les réponses de l’IA suscite de nombreuses interrogations chez les médias et les éditeurs. Comment des plateformes aussi différentes du journalisme classique peuvent-elles dominer un outil devenu central dans l’accès à l’information ? Faut-il y voir une dérive, une faiblesse de l’IA, ou au contraire un signal clair sur la manière dont ChatGPT sélectionne et exploite ses sources ? Pour répondre à ces questions, il faut dépasser le réflexe éditorial et analyser la logique fonctionnelle qui guide l’IA.
La domination de Wikipédia et Reddit n’est pas un hasard
La présence massive de Wikipédia et de Reddit dans ChatGPT n’est ni accidentelle ni conjoncturelle. Elle résulte d’un alignement presque parfait entre la structure de ces plateformes et les besoins d’une IA générative. ChatGPT ne cherche pas des articles à lire, mais des blocs d’information exploitables. Wikipédia fournit des synthèses factuelles, hiérarchisées, neutres et relativement stables. Reddit offre une agrégation de discussions, d’expériences et d’opinions que l’IA peut analyser, comparer et synthétiser.
Ces plateformes n’ont pas été conçues pour plaire à un moteur de recherche ou à un lecteur pressé, mais pour organiser de l’information. C’est précisément ce qui les rend extrêmement utiles pour une IA conversationnelle.
Wikipédia : une encyclopédie pensée pour la réutilisation
Wikipédia constitue un cas presque idéal pour ChatGPT. Les articles sont structurés, découpés en sections claires, rédigés dans un style neutre et appuyés sur des sources secondaires. Cette organisation facilite la compréhension rapide d’un sujet et la reformulation synthétique de l’information.
Contrairement à de nombreux médias, Wikipédia ne cherche pas à capter l’attention par un angle éditorial fort. Elle cherche à exposer un état des connaissances. Cette posture correspond exactement au type de contenu que ChatGPT peut exploiter pour produire une réponse générique, sans prise de position ni contextualisation excessive.
Reddit : une base d’expériences humaines à grande échelle
Reddit joue un rôle très différent mais tout aussi stratégique. Là où Wikipédia fournit des faits stabilisés, Reddit offre une matière brute : des témoignages, des comparaisons, des retours d’expérience. Pour ChatGPT, ces discussions sont précieuses. Elles permettent de comprendre comment un sujet est vécu, perçu et débattu par des utilisateurs réels.
Reddit n’est pas exploité pour sa fiabilité journalistique, mais pour sa richesse conversationnelle. L’IA y puise des arguments, des points de vue et des exemples qu’elle peut ensuite reformuler dans un langage neutre. Cette capacité à agréger des opinions multiples explique sa forte présence dans les réponses de ChatGPT.
Des plateformes plus utiles que des médias généralistes
Pour de nombreux éditeurs, la domination de Wikipédia et Reddit est difficile à accepter. Elle semble remettre en cause des années de travail éditorial. Pourtant, du point de vue de ChatGPT, ces plateformes sont souvent plus utiles que des médias généralistes. Elles couvrent un sujet de manière exhaustive ou conversationnelle, sans dépendre de l’actualité immédiate.
Les médias, en revanche, produisent souvent des contenus contextualisés, liés à un événement précis, avec un angle temporel fort. Ces contenus sont excellents pour informer à un instant donné, mais moins adaptés à une IA qui cherche à produire des réponses valables dans le temps.
Une domination qui masque une réalité plus nuancée
Il serait toutefois erroné de conclure que Wikipédia et Reddit “écrasent” totalement les médias dans ChatGPT. Leur domination est avant tout visible en volume brut. Rapportée à leur taille réelle, leur probabilité d’exploitation par page reste relativement faible. Lors de sa conférence, Mikaël Priol souligne ce point essentiel :
« Reddit est très visible dans ChatGPT en volume, mais rapporté à la taille de la plateforme, la probabilité qu’un contenu soit repris est extrêmement faible. »
— Mikaël Priol, fondateur du groupe Internet Factory
Autrement dit, Wikipédia et Reddit fournissent une immense quantité de matière, mais seule une fraction de leurs contenus est réellement exploitée par l’IA. Cette nuance est essentielle pour comprendre les opportunités restantes pour les médias.
Pourquoi les médias sont désavantagés structurellement
Les médias sont confrontés à plusieurs handicaps structurels face à des plateformes comme Wikipédia ou Reddit. Leur contenu est souvent protégé par des droits, des paywalls ou des restrictions techniques. Leur écriture est plus narrative, plus contextualisée, parfois plus subjective. Leur production est rythmée par l’actualité, ce qui rend certains contenus rapidement obsolètes pour une IA.
À l’inverse, Wikipédia et Reddit produisent des contenus cumulables, enrichis dans le temps, et rarement supprimés. Cette continuité renforce leur valeur comme sources stables pour ChatGPT.
La confusion entre autorité éditoriale et utilité informationnelle
L’un des malentendus majeurs réside dans la notion d’autorité. Les médias sont historiquement perçus comme des autorités éditoriales. ChatGPT, lui, raisonne en termes d’utilité informationnelle. Une source est autoritaire si elle permet de répondre correctement, pas si elle est prestigieuse.
Cette distinction explique pourquoi des médias reconnus peuvent être moins utilisés que des plateformes collaboratives. L’autorité, dans l’IA, n’est pas déclarative. Elle est fonctionnelle.
Faut-il s’inquiéter de cette domination ?
La domination de Wikipédia et Reddit doit être interprétée comme un signal, pas comme une fatalité. Elle montre ce que ChatGPT valorise : la structure, la neutralité, la spécialisation et la richesse conversationnelle. Elle n’implique pas que les médias soient condamnés, mais qu’ils doivent comprendre les règles du nouvel intermédiaire.
Les médias qui cherchent à rivaliser frontalement avec Wikipédia ou Reddit sur leur propre terrain risquent l’échec. Ceux qui identifient ce qui rend leurs contenus exploitables par l’IA peuvent conserver un rôle pertinent.
Le rôle indirect des médias dans cet écosystème
Même lorsqu’ils ne sont pas cités directement, les médias continuent d’alimenter l’écosystème informationnel. Leurs contenus sont repris, commentés et synthétisés par d’autres sources qui, elles, sont exploitées par ChatGPT. L’influence éditoriale ne disparaît pas, elle devient indirecte.
Cette situation est frustrante pour les éditeurs, car elle réduit la visibilité directe. Mais elle souligne aussi l’importance de comprendre l’écosystème global plutôt que de se focaliser uniquement sur la citation directe.
Ce que révèle la domination de Wikipédia et Reddit
Plusieurs enseignements clés se dégagent de cette analyse :
- ChatGPT privilégie les plateformes structurées et cumulatives.
- La neutralité et la clarté priment sur l’angle éditorial.
- Les expériences utilisateurs sont une source majeure d’information.
- L’autorité IA repose sur l’utilité, pas sur la notoriété.
- Les médias restent influents, mais de manière moins visible.
Conclusion : un miroir des priorités de l’IA
La domination de Wikipédia et Reddit dans ChatGPT n’est pas une anomalie. Elle est le reflet des priorités d’une IA conçue pour répondre, synthétiser et contextualiser rapidement. Pour les médias, cette situation peut être perçue comme une menace ou comme une source d’enseignements. Comprendre pourquoi ces plateformes dominent permet de mieux saisir ce que ChatGPT attend réellement de ses sources. Dans ce nouvel environnement, la visibilité éditoriale ne se conquiert plus uniquement par l’audience, mais par la capacité à fournir une information immédiatement exploitable par les machines.