Заложенное в предобучении, измененное тонкой настройкой: пример исследования происхождения когнитивных искажений в больших языковых моделях
Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs
July 9, 2025
Авторы: Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют когнитивные искажения — систематические тенденции к иррациональному принятию решений, аналогичные тем, что наблюдаются у людей. Предыдущие исследования показали, что эти искажения варьируются между моделями и могут усиливаться в процессе настройки на инструкции. Однако до сих пор неясно, обусловлены ли эти различия в искажениях предварительным обучением, донастройкой или даже случайным шумом из-за стохастичности обучения. Мы предлагаем двухэтапный причинно-следственный экспериментальный подход для разделения этих факторов. Сначала мы донастраиваем модели несколько раз с использованием разных случайных начальных значений, чтобы изучить, как случайность обучения влияет на более чем 30 когнитивных искажений. Затем мы вводим кросс-настройку — замену наборов данных для инструкций между моделями, чтобы изолировать источники искажений. Эта замена использует наборы данных, которые привели к различным паттернам искажений, напрямую проверяя, зависят ли искажения от данных. Наши результаты показывают, что, хотя случайность обучения вносит некоторую вариативность, искажения в основном формируются на этапе предварительного обучения: модели с одинаковой предварительно обученной основой демонстрируют более схожие паттерны искажений, чем те, которые используют только общие данные для донастройки. Эти выводы свидетельствуют о том, что понимание искажений в донастроенных моделях требует учета их происхождения на этапе предварительного обучения, выходящего за рамки эффектов донастройки. Этот подход может помочь в разработке принципиальных стратегий для оценки и смягчения искажений в LLM.
English
Large language models (LLMs) exhibit cognitive biases -- systematic
tendencies of irrational decision-making, similar to those seen in humans.
Prior work has found that these biases vary across models and can be amplified
by instruction tuning. However, it remains unclear if these differences in
biases stem from pretraining, finetuning, or even random noise due to training
stochasticity. We propose a two-step causal experimental approach to
disentangle these factors. First, we finetune models multiple times using
different random seeds to study how training randomness affects over 30
cognitive biases. Second, we introduce cross-tuning -- swapping
instruction datasets between models to isolate bias sources. This swap uses
datasets that led to different bias patterns, directly testing whether biases
are dataset-dependent. Our findings reveal that while training randomness
introduces some variability, biases are mainly shaped by pretraining: models
with the same pretrained backbone exhibit more similar bias patterns than those
sharing only finetuning data. These insights suggest that understanding biases
in finetuned models requires considering their pretraining origins beyond
finetuning effects. This perspective can guide future efforts to develop
principled strategies for evaluating and mitigating bias in LLMs.