L'allineamento rende i modelli linguistici normativi, non descrittivi.

Abstract

L'allineamento post-addestramento ottimizza i modelli linguistici per allinearli ai segnali di preferenza umana, ma questo obiettivo non equivale a modellare il comportamento umano osservato. Confrontiamo 120 coppie di modelli base-allineati su oltre 10.000 decisioni umane reali in giochi strategici multi-round - trattative, persuasione, negoziazione e giochi di matrice ripetuti. In questi contesti, i modelli base superano le loro controparti allineate nella previsione delle scelte umane con un rapporto di quasi 10:1, in modo robusto tra famiglie di modelli, formulazioni dei prompt e configurazioni di gioco. Questo schema si inverte, tuttavia, in contesti in cui il comportamento umano ha maggiori probabilità di seguire previsioni normative: i modelli allineati dominano nei giochi didattici one-shot in tutti e 12 i tipi testati e nelle scelte lottery non strategiche - e persino all'interno dei giochi multi-round stessi, al primo round, prima che si sviluppi una storia di interazione. Questo schema di condizione limite suggerisce che l'allineamento induce un bias normativo: migliora la previsione quando il comportamento umano è relativamente ben catturato da soluzioni normative, ma peggiora la previsione in contesti strategici multi-round, dove il comportamento è plasmato da dinamiche descrittive come reciprocità, ritorsione e adattamento dipendente dalla storia. Questi risultati rivelano un compromesso fondamentale tra l'ottimizzazione dei modelli per l'uso umano e il loro utilizzo come proxy per il comportamento umano.

English

Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.

L'allineamento rende i modelli linguistici normativi, non descrittivi.

Alignment Makes Language Models Normative, Not Descriptive

Abstract

Support