Plantado no Pré-treinamento, Moldado pelo Ajuste Fino: Um Estudo de Caso sobre as Origens dos Vieses Cognitivos em LLMs

Resumo

Modelos de linguagem de grande escala (LLMs) exibem vieses cognitivos — tendências sistemáticas de tomada de decisão irracional, semelhantes às observadas em humanos. Trabalhos anteriores descobriram que esses vieses variam entre modelos e podem ser amplificados pelo ajuste por instrução. No entanto, ainda não está claro se essas diferenças nos vieses decorrem do pré-treinamento, do ajuste fino ou até mesmo de ruídos aleatórios devido à estocasticidade do treinamento. Propomos uma abordagem experimental causal em duas etapas para desvendar esses fatores. Primeiro, ajustamos modelos várias vezes usando diferentes sementes aleatórias para estudar como a aleatoriedade do treinamento afeta mais de 30 vieses cognitivos. Segundo, introduzimos o "cross-tuning" — trocando conjuntos de dados de instrução entre modelos para isolar as fontes de viés. Essa troca utiliza conjuntos de dados que levaram a padrões de viés diferentes, testando diretamente se os vieses são dependentes do conjunto de dados. Nossos resultados revelam que, embora a aleatoriedade do treinamento introduza alguma variabilidade, os vieses são principalmente moldados pelo pré-treinamento: modelos com o mesmo núcleo pré-treinado exibem padrões de viés mais semelhantes do que aqueles que compartilham apenas dados de ajuste fino. Essas descobertas sugerem que a compreensão dos vieses em modelos ajustados requer a consideração de suas origens no pré-treinamento, além dos efeitos do ajuste fino. Essa perspectiva pode orientar esforços futuros para desenvolver estratégias fundamentadas na avaliação e mitigação de vieses em LLMs.

English

Large language models (LLMs) exhibit cognitive biases -- systematic tendencies of irrational decision-making, similar to those seen in humans. Prior work has found that these biases vary across models and can be amplified by instruction tuning. However, it remains unclear if these differences in biases stem from pretraining, finetuning, or even random noise due to training stochasticity. We propose a two-step causal experimental approach to disentangle these factors. First, we finetune models multiple times using different random seeds to study how training randomness affects over 30 cognitive biases. Second, we introduce cross-tuning -- swapping instruction datasets between models to isolate bias sources. This swap uses datasets that led to different bias patterns, directly testing whether biases are dataset-dependent. Our findings reveal that while training randomness introduces some variability, biases are mainly shaped by pretraining: models with the same pretrained backbone exhibit more similar bias patterns than those sharing only finetuning data. These insights suggest that understanding biases in finetuned models requires considering their pretraining origins beyond finetuning effects. This perspective can guide future efforts to develop principled strategies for evaluating and mitigating bias in LLMs.

Plantado no Pré-treinamento, Moldado pelo Ajuste Fino: Um Estudo de Caso sobre as Origens dos Vieses Cognitivos em LLMs

Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

Resumo

Support