Verloren im Sampling: Bewertung der lexikalischen Erreichbarkeit in LLMs mittels des Word Coverage Score (WCS)

Zusammenfassung

Moderne Große Sprachmodelle (Large Language Models, LLMs) werden oft dafür kritisiert, repetitive und homogene Texte zu produzieren, obwohl sie über ein enormes latentes Vokabular verfügen. Während sich frühere Forschung auf Modellwissen und Trainingsdaten konzentrierte, untersuchen wir die Rolle der Dekodierungsmechanismen bei der Unterdrückung sprachlicher Vielfalt. Wir führen den Wortabdeckungswert (Word Coverage Score, WCS) ein, eine Metrik, die quantifiziert, in welchem Ausmaß kontextuell angemessenes menschliches Vokabular durch gängige Sampling-Filter (z. B. Top-p, Top-k und Min-p) mathematisch beschnitten wird. Statt statisches Wissen zu bewerten, misst der WCS die lexikalische Überlebensrate niederfrequenter, informationsreicher menschlicher Wörter als Funktion der Sampling-Parameter. Durch die Analyse von Open-Weight-Modellen anhand von von Menschen verfassten Korpusfragmenten identifizieren wir, welche logischen lexikalischen Entscheidungen durch den Dekoder unerreichbar gemacht werden, selbst wenn sie im Wahrscheinlichkeitsraum vorhanden sind. Unsere Ergebnisse liefern quantitative Belege dafür, dass branchenübliche Sampling-Standardwerte als unbeabsichtigte Zensurmechanismen wirken, die die einzigartigen Strukturen menschlicher Ausdrucksweise zu einem homogenisierten Diskurs glätten. Der WCS bietet einen rigorosen Rahmen für die Optimierung des Trade-offs zwischen Textkohärenz und lexikalischem Reichtum und stellt ein Diagnosewerkzeug zur Bewahrung der Vielfalt menschlicher Sprache in generativen Modellen dar.

English

Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training data, we investigate the role of decoding mechanics in suppressing linguistic diversity. We introduce the Word Coverage Score (WCS), a metric that quantifies the extent to which contextually appropriate human vocabulary is mathematically pruned by standard sampling filters (e.g., Top-p, Top-k, and Min-p). Rather than assessing static knowledge, the WCS measures the lexical survival rate of low-frequency, high-information human words as a function of sampling parameters. By auditing open-weight models on human-authored corpus fragments, we identify which logical lexical choices are rendered unreachable by the decoder, even when they reside within the probability space. Our results provide quantitative evidence that industry-standard sampling defaults act as unintended censorship mechanisms, smoothing the unique textures of human expression into a homogenized discourse. The WCS offers a rigorous framework for optimizing the trade-off between text coherence and lexical richness, providing a diagnostic tool for preserving the diversity of human language in generative models.