Compressie Bevordert Consistentie, Niet Waarheid: Wanneer en Waarom Taalmodellen de Voorkeur Geven aan Correcte Informatie

Samenvatting

Waarom geven taalmodellen soms de voorkeur aan correcte uitspraken, zelfs wanneer ze zijn getraind op data van gemengde kwaliteit? Wij introduceren het Compressie-Consistentie Principe: next-token-voorspelling geeft de voorkeur aan hypothesen die kortere en meer intern consistente beschrijvingen van de trainingsdata mogelijk maken. Een waarheidsbias ontstaat alleen wanneer valse alternatieven structureel moeilijker te comprimeren zijn. Wij testen dit met kleine GPT-2-stijl karakter-level transformers (3.5M–86M parameters) op synthetische wiskunde-corpora met gecontroleerde mengsels van correcte en incorrecte regels. In de random-error-setting prefereren modellen sterk correcte voltooiingen in gepaarde evaluatie: 83.1% nauwkeurigheid bij gebalanceerde data en 67.0% zelfs wanneer correcte regels in slechts 10% van het corpus voorkomen. Het vervangen van willekeurige fouten door een coherent maar wiskundig incorrect regelsysteem elimineert de voorkeur grotendeels (nauwkeurigheid nabij kansniveau). In een meer natuurlijk-taal-achtige synthetische wereld is het effect zwakker maar nog steeds aanwezig (57.7%). Aanvullende experimenten tonen aan dat het inbouwen van verificatiestappen de voorkeur voor correctheid kan herstellen, zelfs op kleine schaal, terwijl het verhogen van het aantal consistente regels een geleidelijke verbetering in nauwkeurigheid oplevert. Onze resultaten suggereren dat wat verschijnt als een "waarheidsbias" grotendeels een bijwerking is van compressiedruk en voorkeur voor interne consistentie, in plaats van een intrinsieke drang naar waarheid. Volledige code en data zijn beschikbaar op https://github.com/Rai220/compression-drives-truth.

English

Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.

Compressie Bevordert Consistentie, Niet Waarheid: Wanneer en Waarom Taalmodellen de Voorkeur Geven aan Correcte Informatie

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Samenvatting

Support