Komprimierung begünstigt Konsistenz, nicht Wahrheit: Wann und warum Sprachmodelle korrekte Informationen bevorzugen

Zusammenfassung

Warum bevorzugen Sprachmodelle manchmal korrekte Aussagen, selbst wenn sie mit Daten gemischter Qualität trainiert wurden? Wir führen das Kompressions-Konsistenz-Prinzip ein: Die Next-Token-Prediction begünstigt Hypothesen, die kürzere und intern konsistentere Beschreibungen der Trainingsdaten ermöglichen. Eine Wahrheitspräferenz entsteht nur dann, wenn falsche Alternativen strukturell schwerer zu komprimieren sind. Wir testen dies mit kleinen GPT-2-artigen Character-Level-Transformatoren (3,5–86 Mio. Parameter) an synthetischen Mathematik-Korpora mit kontrollierten Mischungen aus korrekten und falschen Regeln. Im Setting mit zufälligen Fehlern bevorzugen Modelle in gepaarten Evaluationen stark korrekte Komplettierungen: 83,1 % Genauigkeit bei balancierten Daten und 67,0 %, selbst wenn korrekte Regeln nur in 10 % des Korpus vorkommen. Ersetzt man zufällige Fehler durch ein kohärentes, aber mathematisch falsches Regelsystem, verschwindet die Präferenz weitgehend (Genauigkeit nahe der Ratewahrscheinlichkeit). In einer synthetischen Welt, die natürlicher Sprache ähnelt, ist der Effekt schwächer, aber noch vorhanden (57,7 %). Zusätzliche Experimente zeigen, dass eingebettete Verifikationsschritte die Präferenz für Korrektheit selbst bei kleinem Maßstab wiederherstellen können, während eine Erhöhung der Anzahl konsistenter Regeln eine abgestufte Verbesserung der Genauigkeit bewirkt. Unsere Ergebnisse deuten darauf hin, dass das, was als „Wahrheitspräferenz“ erscheint, weitgehend ein Nebeneffekt von Kompressionsdruck und Vorliebe für interne Konsistenz ist und nicht auf einem intrinsischen Streben nach Wahrheit beruht. Vollständiger Code und Daten sind unter https://github.com/Rai220/compression-drives-truth verfügbar.

English

Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.

Komprimierung begünstigt Konsistenz, nicht Wahrheit: Wann und warum Sprachmodelle korrekte Informationen bevorzugen

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Zusammenfassung

Support