Perdidos en el muestreo: Evaluación de la accesibilidad léxica en LLMs mediante la Puntuación de Cobertura de Palabras (WCS)

Resumen

Los Grandes Modelos de Lenguaje (GMLs) modernos son a menudo criticados por generar texto repetitivo y homogéneo, a pesar de poseer vastos vocabularios latentes. Si bien investigaciones previas se han centrado en el conocimiento del modelo y los datos de entrenamiento, nosotros investigamos el papel de la mecánica de decodificación en la supresión de la diversidad lingüística. Introducimos el Puntaje de Cobertura Léxica (Word Coverage Score, WCS), una métrica que cuantifica en qué medida el vocabulario humano contextualmente apropiado es matemáticamente podado por los filtros de muestreo estándar (p. ej., Top-p, Top-k y Min-p). En lugar de evaluar el conocimiento estático, el WCS mide la tasa de supervivencia léxica de palabras humanas de baja frecuencia y alta información en función de los parámetros de muestreo. Al auditar modelos de peso abierto en fragmentos de corpus escritos por humanos, identificamos qué elecciones léxicas lógicas son vuelven inalcanzables por el decodificador, incluso cuando residen dentro del espacio de probabilidad. Nuestros resultados proporcionan evidencia cuantitativa de que los valores predeterminados de muestreo estándar de la industria actúan como mecanismos de censura no intencionados, suavizando las texturas únicas de la expresión humana en un discurso homogeneizado. El WCS ofrece un marco riguroso para optimizar el equilibrio entre la coherencia textual y la riqueza léxica, proporcionando una herramienta diagnóstica para preservar la diversidad del lenguaje humano en modelos generativos.

English

Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training data, we investigate the role of decoding mechanics in suppressing linguistic diversity. We introduce the Word Coverage Score (WCS), a metric that quantifies the extent to which contextually appropriate human vocabulary is mathematically pruned by standard sampling filters (e.g., Top-p, Top-k, and Min-p). Rather than assessing static knowledge, the WCS measures the lexical survival rate of low-frequency, high-information human words as a function of sampling parameters. By auditing open-weight models on human-authored corpus fragments, we identify which logical lexical choices are rendered unreachable by the decoder, even when they reside within the probability space. Our results provide quantitative evidence that industry-standard sampling defaults act as unintended censorship mechanisms, smoothing the unique textures of human expression into a homogenized discourse. The WCS offers a rigorous framework for optimizing the trade-off between text coherence and lexical richness, providing a diagnostic tool for preserving the diversity of human language in generative models.