Выравнивание делает языковые модели нормативными, а не дескриптивными

Аннотация

Посттренировочная адаптация (alignment) оптимизирует языковые модели для соответствия сигналам человеческих предпочтений, однако эта задача не эквивалентна моделированию наблюдаемого человеческого поведения. Мы сравниваем 120 пар базовых и адаптированных моделей на основе более 10 000 реальных решений людей в многораундовых стратегических играх — торгах, убеждении, переговорах и повторяющихся матричных играх. В этих условиях базовые модели превосходят свои адаптированные аналоги в прогнозировании человеческого выбора с соотношением почти 10:1, и этот результат устойчив для разных семейств моделей, формулировок промптов и конфигураций игр. Однако эта закономерность меняется в ситуациях, где поведение людей с большей вероятностью следует нормативным предсказаниям: адаптированные модели доминируют в однораундовых классических играх (по всем 12 протестированным типам) и в нестратегических лотерейных выборах — и даже в самих многораундовых играх, но только в первом раунде, до формирования истории взаимодействия. Данная граничная закономерность указывает на то, что адаптация вызывает нормативное смещение: она улучшает прогнозирование, когда человеческое поведение относительно хорошо описывается нормативными решениями, но ухудшает его в многораундовых стратегических контекстах, где поведение формируется под влиянием дескриптивных динамик, таких как взаимность, реторсия и адаптация, зависящая от истории взаимодействий. Эти результаты раскрывают фундаментальный компромисс между оптимизацией моделей для использования человеком и их применением в качестве прокси человеческого поведения.

English

Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.

Выравнивание делает языковые модели нормативными, а не дескриптивными

Alignment Makes Language Models Normative, Not Descriptive

Аннотация

Support