Uitlijning maakt taalmodelen normatief, niet descriptief

Samenvatting

Post-training alignment optimaliseert taalmodellen om af te stemmen op menselijke voorkeursignalen, maar dit doel is niet gelijkwaardig aan het modelleren van waargenomen menselijk gedrag. Wij vergelijken 120 basis- en gealigneerde modelparen op basis van meer dan 10.000 echte menselijke beslissingen in meerdere ronden van strategische spellen – onderhandelen, overtuigen, onderhandeling en herhaalde matrixspellen. In deze settings overtreffen de basismodellen hun gealigneerde tegenhangers in het voorspellen van menselijke keuzes met een verhouding van bijna 10:1, robuust over modelfamilies, promptformuleringen en spelconfiguraties heen. Dit patroon keert zich echter om in settings waar menselijk gedrag eerder geneigd is normatieve voorspellingen te volgen: gealigneerde modellen domineren bij eenmalige tekstboekspellen in alle 12 geteste types en bij niet-strategische loterijkeuzes – en zelfs binnen de meerronde spellen zelf, in ronde één, voordat de interactiegeschiedenis zich ontwikkelt. Dit grensvoorwaardepatroon suggereert dat alignment een normatieve bias induceert: het verbetert de voorspelling wanneer menselijk gedrag relatief goed wordt vastgelegd door normatieve oplossingen, maar schaadt de voorspelling in meerronde strategische settings, waar gedrag wordt gevormd door descriptieve dynamieken zoals wederkerigheid, vergelding en geschiedenisafhankelijke aanpassing. Deze resultaten onthullen een fundamentele afweging tussen het optimaliseren van modellen voor menselijk gebruik en het gebruiken ervan als benaderingen van menselijk gedrag.

English

Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.

Uitlijning maakt taalmodelen normatief, niet descriptief

Alignment Makes Language Models Normative, Not Descriptive

Samenvatting

Support