Perdido na Amostragem: Avaliando a Acessibilidade Lexical em LLMs por meio da Pontuação de Cobertura de Palavras (WCS)

Resumo

Modelos de Linguagem de Grande Escala (LLMs) modernos são frequentemente criticados por produzirem textos repetitivos e homogêneos, apesar de possuírem vastos vocabulários latentes. Embora pesquisas anteriores tenham se concentrado no conhecimento do modelo e nos dados de treinamento, investigamos o papel da mecânica de decodificação na supressão da diversidade linguística. Introduzimos a Pontuação de Cobertura de Palavras (WCS, do inglês *Word Coverage Score*), uma métrica que quantifica o grau em que o vocabulário humano contextualmente apropriado é matematicamente podado por filtros de amostragem padrão (por exemplo, Top-p, Top-k e Min-p). Em vez de avaliar o conhecimento estático, a WCS mede a taxa de sobrevivência lexical de palavras humanas de baixa frequência e alto conteúdo informacional em função dos parâmetros de amostragem. Ao auditar modelos de pesos abertos em fragmentos de corpus escritos por humanos, identificamos quais escolhas lexicais logicamente possíveis se tornam inatingíveis pelo decodificador, mesmo quando residem no espaço de probabilidades. Nossos resultados fornecem evidências quantitativas de que os valores-padrão da indústria para amostragem atuam como mecanismos de censura não intencionais, suavizando as texturas únicas da expressão humana em um discurso homogeneizado. A WCS oferece uma estrutura rigorosa para otimizar o equilíbrio entre coerência textual e riqueza lexical, constituindo uma ferramenta diagnóstica para preservar a diversidade da linguagem humana em modelos generativos.

English

Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training data, we investigate the role of decoding mechanics in suppressing linguistic diversity. We introduce the Word Coverage Score (WCS), a metric that quantifies the extent to which contextually appropriate human vocabulary is mathematically pruned by standard sampling filters (e.g., Top-p, Top-k, and Min-p). Rather than assessing static knowledge, the WCS measures the lexical survival rate of low-frequency, high-information human words as a function of sampling parameters. By auditing open-weight models on human-authored corpus fragments, we identify which logical lexical choices are rendered unreachable by the decoder, even when they reside within the probability space. Our results provide quantitative evidence that industry-standard sampling defaults act as unintended censorship mechanisms, smoothing the unique textures of human expression into a homogenized discourse. The WCS offers a rigorous framework for optimizing the trade-off between text coherence and lexical richness, providing a diagnostic tool for preserving the diversity of human language in generative models.