Diversidade Epistêmica e Colapso do Conhecimento em Modelos de Linguagem de Grande Escala
Epistemic Diversity and Knowledge Collapse in Large Language Models
October 5, 2025
Autores: Dustin Wright, Sarah Masud, Jared Moore, Srishti Yadav, Maria Antoniak, Chan Young Park, Isabelle Augenstein
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) tendem a gerar textos lexical, semântica e estilisticamente homogêneos. Isso representa um risco de colapso do conhecimento, onde LLMs homogêneos mediam uma redução na gama de informações acessíveis ao longo do tempo. Os trabalhos existentes sobre homogeneização são limitados por um foco em configurações de múltipla escolha de resposta fechada ou em características semânticas imprecisas, e não analisam tendências ao longo do tempo e contextos culturais. Para superar isso, apresentamos uma nova metodologia para medir a diversidade epistêmica, ou seja, a variação em afirmações do mundo real nas saídas de LLMs, que utilizamos para realizar um amplo estudo empírico sobre o colapso do conhecimento em LLMs. Testamos 27 LLMs, 155 tópicos abrangendo 12 países e 200 variações de prompts extraídas de chats reais de usuários. Para os tópicos em nosso estudo, mostramos que, embora modelos mais recentes tendam a gerar afirmações mais diversas, quase todos os modelos são menos epistemicamente diversos do que uma pesquisa básica na web. Descobrimos que o tamanho do modelo tem um impacto negativo na diversidade epistêmica, enquanto a geração aumentada por recuperação (RAG) tem um impacto positivo, embora a melhoria proporcionada pela RAG varie de acordo com o contexto cultural. Por fim, em comparação com uma fonte tradicional de conhecimento (Wikipedia), descobrimos que afirmações específicas de países refletem mais o idioma inglês do que o local, destacando uma lacuna na representação epistêmica.
English
Large language models (LLMs) tend to generate lexically, semantically, and
stylistically homogenous texts. This poses a risk of knowledge collapse, where
homogenous LLMs mediate a shrinking in the range of accessible information over
time. Existing works on homogenization are limited by a focus on closed-ended
multiple-choice setups or fuzzy semantic features, and do not look at trends
across time and cultural contexts. To overcome this, we present a new
methodology to measure epistemic diversity, i.e., variation in real-world
claims in LLM outputs, which we use to perform a broad empirical study of LLM
knowledge collapse. We test 27 LLMs, 155 topics covering 12 countries, and 200
prompt variations sourced from real user chats. For the topics in our study, we
show that while newer models tend to generate more diverse claims, nearly all
models are less epistemically diverse than a basic web search. We find that
model size has a negative impact on epistemic diversity, while
retrieval-augmented generation (RAG) has a positive impact, though the
improvement from RAG varies by the cultural context. Finally, compared to a
traditional knowledge source (Wikipedia), we find that country-specific claims
reflect the English language more than the local one, highlighting a gap in
epistemic representation