ChatPaper.aiChatPaper

Diversité épistémique et effondrement des connaissances dans les grands modèles de langage

Epistemic Diversity and Knowledge Collapse in Large Language Models

October 5, 2025
papers.authors: Dustin Wright, Sarah Masud, Jared Moore, Srishti Yadav, Maria Antoniak, Chan Young Park, Isabelle Augenstein
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) ont tendance à générer des textes lexiquement, sémantiquement et stylistiquement homogènes. Cela pose un risque d'effondrement des connaissances, où des LLMs homogènes entraînent une réduction de la gamme d'informations accessibles au fil du temps. Les travaux existants sur l'homogénéisation sont limités par une focalisation sur des configurations à choix multiples fermées ou sur des caractéristiques sémantiques floues, et n'examinent pas les tendances à travers le temps et les contextes culturels. Pour surmonter cela, nous présentons une nouvelle méthodologie pour mesurer la diversité épistémique, c'est-à-dire la variation des affirmations sur le monde réel dans les sorties des LLMs, que nous utilisons pour mener une vaste étude empirique sur l'effondrement des connaissances dans les LLMs. Nous testons 27 LLMs, 155 sujets couvrant 12 pays, et 200 variations de prompts issues de discussions réelles d'utilisateurs. Pour les sujets de notre étude, nous montrons que si les modèles plus récents tendent à générer des affirmations plus diversifiées, presque tous les modèles sont moins diversifiés sur le plan épistémique qu'une recherche web basique. Nous constatons que la taille du modèle a un impact négatif sur la diversité épistémique, tandis que la génération augmentée par récupération (RAG) a un impact positif, bien que l'amélioration apportée par la RAG varie selon le contexte culturel. Enfin, par rapport à une source de connaissances traditionnelle (Wikipedia), nous constatons que les affirmations spécifiques à un pays reflètent davantage la langue anglaise que la langue locale, mettant en évidence un écart dans la représentation épistémique.
English
Large language models (LLMs) tend to generate lexically, semantically, and stylistically homogenous texts. This poses a risk of knowledge collapse, where homogenous LLMs mediate a shrinking in the range of accessible information over time. Existing works on homogenization are limited by a focus on closed-ended multiple-choice setups or fuzzy semantic features, and do not look at trends across time and cultural contexts. To overcome this, we present a new methodology to measure epistemic diversity, i.e., variation in real-world claims in LLM outputs, which we use to perform a broad empirical study of LLM knowledge collapse. We test 27 LLMs, 155 topics covering 12 countries, and 200 prompt variations sourced from real user chats. For the topics in our study, we show that while newer models tend to generate more diverse claims, nearly all models are less epistemically diverse than a basic web search. We find that model size has a negative impact on epistemic diversity, while retrieval-augmented generation (RAG) has a positive impact, though the improvement from RAG varies by the cultural context. Finally, compared to a traditional knowledge source (Wikipedia), we find that country-specific claims reflect the English language more than the local one, highlighting a gap in epistemic representation
PDF12October 7, 2025