La compressione favorisce la coerenza, non la verità: quando e perché i modelli linguistici preferiscono le informazioni corrette

Abstract

Perché i modelli linguistici talvolta preferiscono affermazioni corrette anche quando addestrati su dati di qualità mista? Introduciamo il Principio di Compressione-Consistenza: la previsione del token successivo favorisce ipotesi che consentono descrizioni più brevi e internamente coerenti dei dati di allenamento. La tendenza verso la verità emerge solo quando le alternative false sono strutturalmente più difficili da comprimere. Testiamo questo principio utilizzando piccoli transformer a livello di carattere in stile GPT-2 (3.5M–86M parametri) su corpora matematici sintetici con miscele controllate di regole corrette e incorrette. Nello scenario di errore casuale, i modelli mostrano una forte preferenza per completamenti corretti in valutazione comparata: 83.1% di accuratezza con dati bilanciati e 67.0% anche quando le regole corrette compaiono solo nel 10% del corpus. Sostituendo gli errori casuali con un sistema di regole coerente ma matematicamente errato, la preferenza scompare quasi completamente (accuratezza vicina al caso). In un mondo sintetico più simile al linguaggio naturale, l'effetto è più debole ma ancora presente (57.7%). Esperimenti aggiuntivi mostrano che l'incorporazione di passaggi di verifica può ripristinare la preferenza per la correttezza anche su piccola scala, mentre l'aumento del numero di regole coerenti produce un miglioramento graduale nell'accuratezza. I nostri risultati suggeriscono che ciò che appare come una "tendenza alla verità" è in gran parte un effetto collaterale della pressione alla compressione e della preferenza per la coerenza interna, piuttosto che una spinta intrinseca verso la verità. Il codice completo e i dati sono disponibili su https://github.com/Rai220/compression-drives-truth.

English

Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.

La compressione favorisce la coerenza, non la verità: quando e perché i modelli linguistici preferiscono le informazioni corrette

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Abstract

Support