ChatPaper.aiChatPaper

Выравнивание делает языковые модели нормативными, а не дескриптивными

Alignment Makes Language Models Normative, Not Descriptive

March 17, 2026
Авторы: Eilam Shapira, Moshe Tennenholtz, Roi Reichart
cs.AI

Аннотация

Посттренировочная адаптация (alignment) оптимизирует языковые модели для соответствия сигналам человеческих предпочтений, однако эта задача не эквивалентна моделированию наблюдаемого человеческого поведения. Мы сравниваем 120 пар базовых и адаптированных моделей на основе более 10 000 реальных решений людей в многораундовых стратегических играх — торгах, убеждении, переговорах и повторяющихся матричных играх. В этих условиях базовые модели превосходят свои адаптированные аналоги в прогнозировании человеческого выбора с соотношением почти 10:1, и этот результат устойчив для разных семейств моделей, формулировок промптов и конфигураций игр. Однако эта закономерность меняется в ситуациях, где поведение людей с большей вероятностью следует нормативным предсказаниям: адаптированные модели доминируют в однораундовых классических играх (по всем 12 протестированным типам) и в нестратегических лотерейных выборах — и даже в самих многораундовых играх, но только в первом раунде, до формирования истории взаимодействия. Данная граничная закономерность указывает на то, что адаптация вызывает нормативное смещение: она улучшает прогнозирование, когда человеческое поведение относительно хорошо описывается нормативными решениями, но ухудшает его в многораундовых стратегических контекстах, где поведение формируется под влиянием дескриптивных динамик, таких как взаимность, реторсия и адаптация, зависящая от истории взаимодействий. Эти результаты раскрывают фундаментальный компромисс между оптимизацией моделей для использования человеком и их применением в качестве прокси человеческого поведения.
English
Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.
PDF393March 20, 2026