Потерянные в выборке: Оценка лексической достижимости в больших языковых моделях с помощью показателя покрытия слов (WCS)

Аннотация

Современные большие языковые модели (Large Language Models, LLM) часто критикуют за генерацию повторяющегося и однородного текста, несмотря на наличие у них обширного скрытого словарного запаса. В то время как предыдущие исследования были сосредоточены на знании модели и обучающих данных, мы изучаем роль механизмов декодирования в подавлении языкового разнообразия. Мы вводим Показатель покрытия слов (Word Coverage Score, WCS) — метрику, которая количественно оценивает степень, в которой контекстуально уместный человеческий словарь математически отсекается стандартными фильтрами семплирования (например, Top-p, Top-k и Min-p). Вместо оценки статического знания WCS измеряет коэффициент выживаемости лексики для низкочастотных, информативно насыщенных человеческих слов как функцию параметров семплирования. Анализируя модели с открытыми весами на фрагментах корпусов, созданных людьми, мы выявляем логически обоснованные лексические варианты, которые становятся недоступными для декодера, даже если они присутствуют в пространстве вероятностей. Наши результаты предоставляют количественные доказательства того, что стандартные настройки семплирования, принятые в индустрии, действуют как непреднамеренные механизмы цензуры, сглаживая уникальные текстуры человеческого выражения до гомогенизированного дискурса. WCS предлагает строгую методологическую основу для оптимизации компромисса между связностью текста и лексическим богатством, являясь диагностическим инструментом для сохранения разнообразия человеческого языка в генеративных моделях.

English

Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training data, we investigate the role of decoding mechanics in suppressing linguistic diversity. We introduce the Word Coverage Score (WCS), a metric that quantifies the extent to which contextually appropriate human vocabulary is mathematically pruned by standard sampling filters (e.g., Top-p, Top-k, and Min-p). Rather than assessing static knowledge, the WCS measures the lexical survival rate of low-frequency, high-information human words as a function of sampling parameters. By auditing open-weight models on human-authored corpus fragments, we identify which logical lexical choices are rendered unreachable by the decoder, even when they reside within the probability space. Our results provide quantitative evidence that industry-standard sampling defaults act as unintended censorship mechanisms, smoothing the unique textures of human expression into a homogenized discourse. The WCS offers a rigorous framework for optimizing the trade-off between text coherence and lexical richness, providing a diagnostic tool for preserving the diversity of human language in generative models.