A Compressão Favorece a Consistência, Não a Verdade: Quando e Por Que os Modelos de Linguagem Preferem Informações Corretas

Resumo

Por que os modelos de linguagem às vezes preferem afirmações corretas mesmo quando treinados com dados de qualidade mista? Apresentamos o Princípio da Compressão-Consistência: a previsão do próximo token favorece hipóteses que permitem descrições mais curtas e internamente consistentes dos dados de treinamento. O viés pela verdade emerge apenas quando as alternativas falsas são estruturalmente mais difíceis de comprimir. Testamos isso usando pequenos transformadores de nível de caractere no estilo GPT-2 (3,5M–86M de parâmetros) em corpora sintéticos de matemática com misturas controladas de regras corretas e incorretas. No cenário de erro aleatório, os modelos preferem fortemente as conclusões corretas na avaliação pareada: 83,1% de precisão com dados balanceados e 67,0% mesmo quando as regras corretas aparecem em apenas 10% do corpus. Substituir erros aleatórios por um sistema de regras coerente, mas matematicamente incorreto, elimina amplamente a preferência (precisão próxima ao acaso). Em um mundo sintético mais parecido com linguagem natural, o efeito é mais fraco, mas ainda presente (57,7%). Experimentos adicionais mostram que a incorporação de etapas de verificação pode restaurar a preferência pela correção mesmo em pequena escala, enquanto aumentar o número de regras consistentes produz uma melhoria gradual na precisão. Nossos resultados sugerem que o que aparece como um "viés pela verdade" é em grande parte um efeito colateral da pressão de compressão e da preferência por consistência interna, e não uma busca intrínseca pela verdade. O código completo e os dados estão disponíveis em https://github.com/Rai220/compression-drives-truth.

English

Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.

A Compressão Favorece a Consistência, Não a Verdade: Quando e Por Que os Modelos de Linguagem Preferem Informações Corretas

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Resumo

Support