La compression favorise la cohérence, non la vérité : quand et pourquoi les modèles de langage privilégient l'information correcte

Résumé

Pourquoi les modèles de langage préfèrent-ils parfois les énoncés corrects même lorsqu'ils sont entraînés sur des données de qualité variable ? Nous introduisons le principe de Compression-Cohérence : la prédiction du token suivant favorise les hypothèses qui permettent des descriptions plus courtes et plus cohérentes en interne des données d'entraînement. Un biais en faveur de la vérité n'émerge que lorsque les alternatives fausses sont structurellement plus difficiles à compresser. Nous testons cela à l'aide de petits transformeurs de niveau caractère de type GPT-2 (3,5M–86M de paramètres) sur des corpus mathématiques synthétiques avec des mélanges contrôlés de règles correctes et incorrectes. Dans le scénario d'erreurs aléatoires, les modèles préfèrent fortement les complétions correctes lors d'évaluations par paires : 83,1 % de précision avec des données équilibrées et 67,0 % même lorsque les règles correctes n'apparaissent que dans 10 % du corpus. Remplacer les erreurs aléatoires par un système de règles cohérent mais mathématiquement incorrect élimine largement cette préférence (précision proche du hasard). Dans un monde synthétique plus proche du langage naturel, l'effet est plus faible mais toujours présent (57,7 %). Des expériences supplémentaires montrent que l'intégration d'étapes de vérification peut restaurer la préférence pour la justesse même à petite échelle, tandis que l'augmentation du nombre de règles cohérentes produit une amélioration graduelle de la précision. Nos résultats suggèrent que ce qui apparaît comme un « biais de vérité » est largement un effet secondaire de la pression de compression et de la préférence pour la cohérence interne, plutôt qu'une tendance intrinsèque vers la vérité. Le code complet et les données sont disponibles à l'adresse https://github.com/Rai220/compression-drives-truth.

English

Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.

La compression favorise la cohérence, non la vérité : quand et pourquoi les modèles de langage privilégient l'information correcte

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Résumé

Support