Diversidad Epistémica y Colapso del Conocimiento en Modelos de Lenguaje a Gran Escala

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) tienden a generar textos léxica, semántica y estilísticamente homogéneos. Esto plantea un riesgo de colapso del conocimiento, donde los LLMs homogéneos median una reducción en el rango de información accesible con el tiempo. Los trabajos existentes sobre homogenización están limitados por un enfoque en configuraciones de opción múltiple cerradas o características semánticas imprecisas, y no examinan tendencias a lo largo del tiempo y contextos culturales. Para superar esto, presentamos una nueva metodología para medir la diversidad epistémica, es decir, la variación en afirmaciones del mundo real en las salidas de los LLMs, que utilizamos para realizar un amplio estudio empírico sobre el colapso del conocimiento en LLMs. Evaluamos 27 LLMs, 155 temas que cubren 12 países y 200 variaciones de indicaciones extraídas de chats de usuarios reales. Para los temas de nuestro estudio, demostramos que, aunque los modelos más nuevos tienden a generar afirmaciones más diversas, casi todos los modelos son menos diversos epistémicamente que una búsqueda web básica. Encontramos que el tamaño del modelo tiene un impacto negativo en la diversidad epistémica, mientras que la generación aumentada con recuperación (RAG) tiene un impacto positivo, aunque la mejora de RAG varía según el contexto cultural. Finalmente, en comparación con una fuente de conocimiento tradicional (Wikipedia), encontramos que las afirmaciones específicas de cada país reflejan más el idioma inglés que el local, destacando una brecha en la representación epistémica.

English

Large language models (LLMs) tend to generate lexically, semantically, and stylistically homogenous texts. This poses a risk of knowledge collapse, where homogenous LLMs mediate a shrinking in the range of accessible information over time. Existing works on homogenization are limited by a focus on closed-ended multiple-choice setups or fuzzy semantic features, and do not look at trends across time and cultural contexts. To overcome this, we present a new methodology to measure epistemic diversity, i.e., variation in real-world claims in LLM outputs, which we use to perform a broad empirical study of LLM knowledge collapse. We test 27 LLMs, 155 topics covering 12 countries, and 200 prompt variations sourced from real user chats. For the topics in our study, we show that while newer models tend to generate more diverse claims, nearly all models are less epistemically diverse than a basic web search. We find that model size has a negative impact on epistemic diversity, while retrieval-augmented generation (RAG) has a positive impact, though the improvement from RAG varies by the cultural context. Finally, compared to a traditional knowledge source (Wikipedia), we find that country-specific claims reflect the English language more than the local one, highlighting a gap in epistemic representation

Diversidad Epistémica y Colapso del Conocimiento en Modelos de Lenguaje a Gran Escala

Epistemic Diversity and Knowledge Collapse in Large Language Models

Resumen

Support