La Compresión Favora la Coherencia, No la Verdad: Cuándo y Por Qué los Modelos de Lenguaje Prefieren la Información Correcta

Resumen

¿Por qué los modelos de lenguaje a veces prefieren enunciados correctos incluso cuando se entrenan con datos de calidad mixta? Introducimos el Principio de Compresión-Consistencia: la predicción del siguiente token favorece hipótesis que permiten descripciones más cortas e internamente consistentes de los datos de entrenamiento. El sesgo hacia la verdad emerge solo cuando las alternativas falsas son estructuralmente más difíciles de comprimir. Probamos esto utilizando pequeños transformadores a nivel de carácter estilo GPT-2 (3.5M–86M parámetros) en corpus matemáticos sintéticos con mezclas controladas de reglas correctas e incorrectas. En el escenario de error aleatorio, los modelos prefieren fuertemente las terminaciones correctas en evaluación pareada: 83.1% de precisión con datos balanceados y 67.0% incluso cuando las reglas correctas aparecen en solo el 10% del corpus. Reemplazar errores aleatorios con un sistema de reglas coherente pero matemáticamente incorrecto elimina en gran medida la preferencia (precisión cercana al azar). En un mundo sintético más similar al lenguaje natural, el efecto es más débil pero aún presente (57.7%). Experimentos adicionales muestran que la verificación de incrustaciones puede restaurar la preferencia por la corrección incluso a pequeña escala, mientras que aumentar el número de reglas consistentes produce una mejora gradual en la precisión. Nuestros resultados sugieren que lo que parece un "sesgo hacia la verdad" es en gran parte un efecto secundario de la presión de compresión y la preferencia por la consistencia interna, en lugar de una tendencia intrínseca hacia la verdad. El código completo y los datos están disponibles en https://github.com/Rai220/compression-drives-truth.

English

Why do language models sometimes prefer correct statements even when trained on mixed-quality data? We introduce the Compression--Consistency Principle: next-token prediction favors hypotheses that allow shorter and more internally consistent descriptions of the training data. Truth bias emerges only when false alternatives are structurally harder to compress. We test this using small GPT-2-style character-level transformers (3.5M--86M parameters) on synthetic math corpora with controlled mixtures of correct and incorrect rules. In the random-error setting, models strongly prefer correct completions in paired evaluation: 83.1% accuracy at balanced data and 67.0% even when correct rules appear in only 10% of the corpus. Replacing random errors with a coherent but mathematically incorrect rule system largely eliminates the preference (near-chance accuracy). In a more natural-language-like synthetic world, the effect is weaker but still present (57.7%). Additional experiments show that embedding verification steps can restore preference for correctness even at small scale, while increasing the number of consistent rules produces a graded improvement in accuracy. Our results suggest that what appears as a "truth bias" is largely a side effect of compression pressure and preference for internal consistency, rather than an intrinsic drive toward truth. Full code and data are available at https://github.com/Rai220/compression-drives-truth.

La Compresión Favora la Coherencia, No la Verdad: Cuándo y Por Qué los Modelos de Lenguaje Prefieren la Información Correcta

Compression Favors Consistency, Not Truth: When and Why Language Models Prefer Correct Information

Resumen

Support