Plantado en el Pretrenamiento, Influenciado por el Ajuste Fino: Un Estudio de Caso sobre los Orígenes de los Sesgos Cognitivos en los Modelos de Lenguaje de Gran Escala
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs
July 9, 2025
Autores: Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs) exhiben sesgos cognitivos: tendencias sistemáticas de toma de decisiones irracionales, similares a las observadas en humanos. Trabajos previos han encontrado que estos sesgos varían entre modelos y pueden amplificarse mediante el ajuste por instrucción. Sin embargo, sigue sin estar claro si estas diferencias en los sesgos provienen del preentrenamiento, del ajuste fino o incluso del ruido aleatorio debido a la estocasticidad del entrenamiento. Proponemos un enfoque experimental causal en dos pasos para desentrañar estos factores. Primero, ajustamos modelos múltiples veces utilizando diferentes semillas aleatorias para estudiar cómo la aleatoriedad del entrenamiento afecta más de 30 sesgos cognitivos. Segundo, introducimos el "cross-tuning": intercambiamos conjuntos de datos de instrucción entre modelos para aislar las fuentes de sesgo. Este intercambio utiliza conjuntos de datos que generaron patrones de sesgo diferentes, probando directamente si los sesgos dependen del conjunto de datos. Nuestros hallazgos revelan que, aunque la aleatoriedad del entrenamiento introduce cierta variabilidad, los sesgos están principalmente moldeados por el preentrenamiento: los modelos con la misma arquitectura preentrenada exhiben patrones de sesgo más similares que aquellos que solo comparten datos de ajuste fino. Estas ideas sugieren que comprender los sesgos en modelos ajustados requiere considerar sus orígenes en el preentrenamiento más allá de los efectos del ajuste fino. Esta perspectiva puede guiar futuros esfuerzos para desarrollar estrategias fundamentadas para evaluar y mitigar el sesgo en los LLMs.
English
Large language models (LLMs) exhibit cognitive biases -- systematic
tendencies of irrational decision-making, similar to those seen in humans.
Prior work has found that these biases vary across models and can be amplified
by instruction tuning. However, it remains unclear if these differences in
biases stem from pretraining, finetuning, or even random noise due to training
stochasticity. We propose a two-step causal experimental approach to
disentangle these factors. First, we finetune models multiple times using
different random seeds to study how training randomness affects over 30
cognitive biases. Second, we introduce cross-tuning -- swapping
instruction datasets between models to isolate bias sources. This swap uses
datasets that led to different bias patterns, directly testing whether biases
are dataset-dependent. Our findings reveal that while training randomness
introduces some variability, biases are mainly shaped by pretraining: models
with the same pretrained backbone exhibit more similar bias patterns than those
sharing only finetuning data. These insights suggest that understanding biases
in finetuned models requires considering their pretraining origins beyond
finetuning effects. This perspective can guide future efforts to develop
principled strategies for evaluating and mitigating bias in LLMs.