Verloren in Sampling: Het beoordelen van lexicale bereikbaarheid in LLM's via de Woorddekkingsscore (WCS)

Samenvatting

Moderne Grote Taalmodellen (LLM's) worden vaak bekritiseerd vanwege het produceren van repetitieve en homogene tekst, ondanks dat ze beschikken over een enorme latente woordenschat. Terwijl eerder onderzoek zich richtte op modelkennis en trainingsdata, onderzoeken wij de rol van decoderingsmechanica bij het onderdrukken van taalkundige diversiteit. We introduceren de Woorddekkingsscore (WCS), een metriek die kwantificeert in welke mate contextueel passende menselijke woorden wiskundig worden weggesneden door standaard samplingfilters (bijv. Top-p, Top-k en Min-p). In plaats van statische kennis te beoordelen, meet de WCS de lexicale overlevingskans van laagfrequente, informatieve menselijke woorden als functie van samplingparameters. Door open-gewichtsmodellen te auditeren op door mensen geschreven corpusfragmenten, identificeren we welke logische lexicale keuzes onbereikbaar worden gemaakt door de decoder, zelfs wanneer ze zich binnen de kansruimte bevinden. Onze resultaten leveren kwantitatief bewijs dat industriestandaard samplingstanden fungeren als onbedoelde censuurmechanismen, die de unieke texturen van menselijke expressie gladstrijken tot een gehomogeniseerd discours. De WCS biedt een rigoureus kader voor het optimaliseren van de afweging tussen tekstcoherentie en lexicale rijkdom, en vormt een diagnostisch instrument voor het behoud van de diversiteit van menselijke taal in generatieve modellen.

English

Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training data, we investigate the role of decoding mechanics in suppressing linguistic diversity. We introduce the Word Coverage Score (WCS), a metric that quantifies the extent to which contextually appropriate human vocabulary is mathematically pruned by standard sampling filters (e.g., Top-p, Top-k, and Min-p). Rather than assessing static knowledge, the WCS measures the lexical survival rate of low-frequency, high-information human words as a function of sampling parameters. By auditing open-weight models on human-authored corpus fragments, we identify which logical lexical choices are rendered unreachable by the decoder, even when they reside within the probability space. Our results provide quantitative evidence that industry-standard sampling defaults act as unintended censorship mechanisms, smoothing the unique textures of human expression into a homogenized discourse. The WCS offers a rigorous framework for optimizing the trade-off between text coherence and lexical richness, providing a diagnostic tool for preserving the diversity of human language in generative models.