Perdu dans l'échantillonnage : évaluer l'atteignabilité lexicale dans les LLM via le Word Coverage Score (WCS)

Résumé

Les modèles de langage de grande taille (LLMs) modernes sont souvent critiqués pour produire un texte répétitif et homogène, malgré leur vaste vocabulaire latent. Alors que les recherches antérieures se sont concentrées sur les connaissances du modèle et les données d'entraînement, nous examinons le rôle des mécanismes de décodage dans la suppression de la diversité linguistique. Nous introduisons le Score de Couverture Lexicale (WCS), une métrique qui quantifie dans quelle mesure un vocabulaire humain contextuellement approprié est mathématiquement élagué par les filtres d'échantillonnage standards (par exemple, Top-p, Top-k et Min-p). Plutôt que d'évaluer des connaissances statiques, le WCS mesure le taux de survie lexicale des mots humains rares et à forte teneur informationnelle en fonction des paramètres d'échantillonnage. En auditant des modèles à poids ouverts sur des corpus de fragments rédigés par des humains, nous identifions quels choix lexicaux logiques sont rendus inaccessibles par le décodeur, même lorsqu'ils résident dans l'espace de probabilité. Nos résultats fournissent une preuve quantitative que les paramètres par défaut de l'industrie en matière d'échantillonnage agissent comme des mécanismes de censure involontaires, lissant les textures uniques de l'expression humaine en un discours homogénéisé. Le WCS offre un cadre rigoureux pour optimiser le compromis entre la cohérence textuelle et la richesse lexicale, fournissant un outil de diagnostic pour préserver la diversité du langage humain dans les modèles génératifs.

English

Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training data, we investigate the role of decoding mechanics in suppressing linguistic diversity. We introduce the Word Coverage Score (WCS), a metric that quantifies the extent to which contextually appropriate human vocabulary is mathematically pruned by standard sampling filters (e.g., Top-p, Top-k, and Min-p). Rather than assessing static knowledge, the WCS measures the lexical survival rate of low-frequency, high-information human words as a function of sampling parameters. By auditing open-weight models on human-authored corpus fragments, we identify which logical lexical choices are rendered unreachable by the decoder, even when they reside within the probability space. Our results provide quantitative evidence that industry-standard sampling defaults act as unintended censorship mechanisms, smoothing the unique textures of human expression into a homogenized discourse. The WCS offers a rigorous framework for optimizing the trade-off between text coherence and lexical richness, providing a diagnostic tool for preserving the diversity of human language in generative models.