L'alignement rend les modèles de langage normatifs, pas descriptifs

Résumé

L'alignement post-formation optimise les modèles de langage pour qu'ils correspondent aux signaux de préférence humaine, mais cet objectif n'est pas équivalent à la modélisation du comportement humain observé. Nous comparons 120 paires de modèles de base et alignés sur plus de 10 000 décisions réelles d'humains dans des jeux stratégiques à plusieurs tours – négociation, persuasion, marchandage et jeux matriciels répétés. Dans ces contextes, les modèles de base surpassent leurs homologues alignés dans la prédiction des choix humains par un ratio de près de 10 pour 1, de manière robuste quelles que soient les familles de modèles, les formulations des invites ou les configurations de jeu. Ce schéma s'inverse cependant dans les situations où le comportement humain est plus susceptible de suivre des prédictions normatives : les modèles alignés dominent sur les jeux universitaires en un seul tour (sur les 12 types testés) et sur les choix de loterie non stratégiques – et même au sein des jeux à plusieurs tours eux-mêmes, au premier tour, avant que l'historique d'interaction ne se développe. Ce schéma de condition limite suggère que l'alignement induit un biais normatif : il améliore la prédiction lorsque le comportement humain est relativement bien saisi par des solutions normatives, mais nuit à la prédiction dans les contextes stratégiques multi-tours, où le comportement est façonné par des dynamiques descriptives telles que la réciprocité, la riposte et l'adaptation dépendante de l'historique. Ces résultats révèlent un compromis fondamental entre l'optimisation des modèles pour une utilisation humaine et leur utilisation comme substituts du comportement humain.

English

Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.

L'alignement rend les modèles de langage normatifs, pas descriptifs

Alignment Makes Language Models Normative, Not Descriptive

Résumé

Support