ChatPaper.aiChatPaper

Заложенное в предобучении, измененное тонкой настройкой: пример исследования происхождения когнитивных искажений в больших языковых моделях

Planted in Pretraining, Swayed by Finetuning: A Case Study on the Origins of Cognitive Biases in LLMs

July 9, 2025
Авторы: Itay Itzhak, Yonatan Belinkov, Gabriel Stanovsky
cs.AI

Аннотация

Крупные языковые модели (LLM) демонстрируют когнитивные искажения — систематические тенденции к иррациональному принятию решений, аналогичные тем, что наблюдаются у людей. Предыдущие исследования показали, что эти искажения варьируются между моделями и могут усиливаться в процессе настройки на инструкции. Однако до сих пор неясно, обусловлены ли эти различия в искажениях предварительным обучением, донастройкой или даже случайным шумом из-за стохастичности обучения. Мы предлагаем двухэтапный причинно-следственный экспериментальный подход для разделения этих факторов. Сначала мы донастраиваем модели несколько раз с использованием разных случайных начальных значений, чтобы изучить, как случайность обучения влияет на более чем 30 когнитивных искажений. Затем мы вводим кросс-настройку — замену наборов данных для инструкций между моделями, чтобы изолировать источники искажений. Эта замена использует наборы данных, которые привели к различным паттернам искажений, напрямую проверяя, зависят ли искажения от данных. Наши результаты показывают, что, хотя случайность обучения вносит некоторую вариативность, искажения в основном формируются на этапе предварительного обучения: модели с одинаковой предварительно обученной основой демонстрируют более схожие паттерны искажений, чем те, которые используют только общие данные для донастройки. Эти выводы свидетельствуют о том, что понимание искажений в донастроенных моделях требует учета их происхождения на этапе предварительного обучения, выходящего за рамки эффектов донастройки. Этот подход может помочь в разработке принципиальных стратегий для оценки и смягчения искажений в LLM.
English
Large language models (LLMs) exhibit cognitive biases -- systematic tendencies of irrational decision-making, similar to those seen in humans. Prior work has found that these biases vary across models and can be amplified by instruction tuning. However, it remains unclear if these differences in biases stem from pretraining, finetuning, or even random noise due to training stochasticity. We propose a two-step causal experimental approach to disentangle these factors. First, we finetune models multiple times using different random seeds to study how training randomness affects over 30 cognitive biases. Second, we introduce cross-tuning -- swapping instruction datasets between models to isolate bias sources. This swap uses datasets that led to different bias patterns, directly testing whether biases are dataset-dependent. Our findings reveal that while training randomness introduces some variability, biases are mainly shaped by pretraining: models with the same pretrained backbone exhibit more similar bias patterns than those sharing only finetuning data. These insights suggest that understanding biases in finetuned models requires considering their pretraining origins beyond finetuning effects. This perspective can guide future efforts to develop principled strategies for evaluating and mitigating bias in LLMs.
PDF21July 16, 2025