ChatPaper.aiChatPaper

Plantado en el Pretrenamiento, Influenciado por el Ajuste Fino: Un Estudio de Caso sobre los Orígenes de los Sesgos Cognitivos en los Modelos de Lenguaje de Gran Escala

Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

July 9, 2025
Autores: Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) exhiben sesgos cognitivos: tendencias sistemáticas de toma de decisiones irracionales, similares a las observadas en humanos. Trabajos previos han encontrado que estos sesgos varían entre modelos y pueden amplificarse mediante el ajuste por instrucción. Sin embargo, sigue sin estar claro si estas diferencias en los sesgos provienen del preentrenamiento, del ajuste fino o incluso del ruido aleatorio debido a la estocasticidad del entrenamiento. Proponemos un enfoque experimental causal en dos pasos para desentrañar estos factores. Primero, ajustamos modelos múltiples veces utilizando diferentes semillas aleatorias para estudiar cómo la aleatoriedad del entrenamiento afecta más de 30 sesgos cognitivos. Segundo, introducimos el "cross-tuning": intercambiamos conjuntos de datos de instrucción entre modelos para aislar las fuentes de sesgo. Este intercambio utiliza conjuntos de datos que generaron patrones de sesgo diferentes, probando directamente si los sesgos dependen del conjunto de datos. Nuestros hallazgos revelan que, aunque la aleatoriedad del entrenamiento introduce cierta variabilidad, los sesgos están principalmente moldeados por el preentrenamiento: los modelos con la misma arquitectura preentrenada exhiben patrones de sesgo más similares que aquellos que solo comparten datos de ajuste fino. Estas ideas sugieren que comprender los sesgos en modelos ajustados requiere considerar sus orígenes en el preentrenamiento más allá de los efectos del ajuste fino. Esta perspectiva puede guiar futuros esfuerzos para desarrollar estrategias fundamentadas para evaluar y mitigar el sesgo en los LLMs.
English
Large language models (LLMs) exhibit cognitive biases -- systematic tendencies of irrational decision-making, similar to those seen in humans. Prior work has found that these biases vary across models and can be amplified by instruction tuning. However, it remains unclear if these differences in biases stem from pretraining, finetuning, or even random noise due to training stochasticity. We propose a two-step causal experimental approach to disentangle these factors. First, we finetune models multiple times using different random seeds to study how training randomness affects over 30 cognitive biases. Second, we introduce cross-tuning -- swapping instruction datasets between models to isolate bias sources. This swap uses datasets that led to different bias patterns, directly testing whether biases are dataset-dependent. Our findings reveal that while training randomness introduces some variability, biases are mainly shaped by pretraining: models with the same pretrained backbone exhibit more similar bias patterns than those sharing only finetuning data. These insights suggest that understanding biases in finetuned models requires considering their pretraining origins beyond finetuning effects. This perspective can guide future efforts to develop principled strategies for evaluating and mitigating bias in LLMs.
PDF21July 16, 2025