Сжатие способствует согласованности, а не истине: когда и почему языковые модели предпочитают верную информацию

Аннотация

Почему языковые модели иногда предпочитают верные утверждения, даже будучи обученными на данных смешанного качества? Мы вводим Принцип Сжатия–Согласованности: предсказание следующего токена благоприятствует гипотезам, которые допускают более короткое и внутренне согласованное описание обучающих данных. Смещение в сторону истины возникает только тогда, когда ложные альтернативы структурно сложнее сжать. Мы проверяем это на небольших char-level трансформерах в стиле GPT-2 (3.5–86 млн параметров), используя синтетические математические корпуса с контролируемой смесью верных и неверных правил. В условиях случайных ошибок модели сильно предпочитают верные завершения при парной оценке: точность 83.1% на сбалансированных данных и 67.0%, даже когда верные правила встречаются лишь в 10% корпуса. Замена случайных ошибок на связную, но математически неверную систему правил практически устраняет предпочтение (точность на уровне случайного угадывания). В более приближенном к естественному языку синтетическом мире эффект слабее, но всё же присутствует (57.7%). Дополнительные эксперименты показывают, что внедрение шагов верификации может восстановить предпочтение правильности даже в небольших масштабах, а увеличение числа согласованных правил приводит к постепенному росту точности. Наши результаты позволяют предположить, что то, что выглядит как «смещение к истине», в значительной степени является побочным эффектом давления сжатия и предпочтения внутренней согласованности, а не внутренней тяги к истине. Полный код и данные доступны по адресу https://github.com/Rai220/compression-drives-truth.

English

Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.

Сжатие способствует согласованности, а не истине: когда и почему языковые модели предпочитают верную информацию

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Аннотация

Support