Plantado no Pré-treinamento, Moldado pelo Ajuste Fino: Um Estudo de Caso sobre as Origens dos Vieses Cognitivos em LLMs
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs
July 9, 2025
Autores: Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky
cs.AI
Resumo
Modelos de linguagem de grande escala (LLMs) exibem vieses cognitivos — tendências sistemáticas de tomada de decisão irracional, semelhantes às observadas em humanos. Trabalhos anteriores descobriram que esses vieses variam entre modelos e podem ser amplificados pelo ajuste por instrução. No entanto, ainda não está claro se essas diferenças nos vieses decorrem do pré-treinamento, do ajuste fino ou até mesmo de ruídos aleatórios devido à estocasticidade do treinamento. Propomos uma abordagem experimental causal em duas etapas para desvendar esses fatores. Primeiro, ajustamos modelos várias vezes usando diferentes sementes aleatórias para estudar como a aleatoriedade do treinamento afeta mais de 30 vieses cognitivos. Segundo, introduzimos o "cross-tuning" — trocando conjuntos de dados de instrução entre modelos para isolar as fontes de viés. Essa troca utiliza conjuntos de dados que levaram a padrões de viés diferentes, testando diretamente se os vieses são dependentes do conjunto de dados. Nossos resultados revelam que, embora a aleatoriedade do treinamento introduza alguma variabilidade, os vieses são principalmente moldados pelo pré-treinamento: modelos com o mesmo núcleo pré-treinado exibem padrões de viés mais semelhantes do que aqueles que compartilham apenas dados de ajuste fino. Essas descobertas sugerem que a compreensão dos vieses em modelos ajustados requer a consideração de suas origens no pré-treinamento, além dos efeitos do ajuste fino. Essa perspectiva pode orientar esforços futuros para desenvolver estratégias fundamentadas na avaliação e mitigação de vieses em LLMs.
English
Large language models (LLMs) exhibit cognitive biases -- systematic
tendencies of irrational decision-making, similar to those seen in humans.
Prior work has found that these biases vary across models and can be amplified
by instruction tuning. However, it remains unclear if these differences in
biases stem from pretraining, finetuning, or even random noise due to training
stochasticity. We propose a two-step causal experimental approach to
disentangle these factors. First, we finetune models multiple times using
different random seeds to study how training randomness affects over 30
cognitive biases. Second, we introduce cross-tuning -- swapping
instruction datasets between models to isolate bias sources. This swap uses
datasets that led to different bias patterns, directly testing whether biases
are dataset-dependent. Our findings reveal that while training randomness
introduces some variability, biases are mainly shaped by pretraining: models
with the same pretrained backbone exhibit more similar bias patterns than those
sharing only finetuning data. These insights suggest that understanding biases
in finetuned models requires considering their pretraining origins beyond
finetuning effects. This perspective can guide future efforts to develop
principled strategies for evaluating and mitigating bias in LLMs.