Ausrichtung macht Sprachmodelle normativ, nicht deskriptiv

Zusammenfassung

Die Nachjustierung (Alignment) von Sprachmodellen optimiert diese anhand von menschlichen Präferenzsignalen, jedoch ist dieses Ziel nicht gleichbedeutend mit der Modellierung tatsächlich beobachteten menschlichen Verhaltens. Wir vergleichen 120 Basis- und alignierte Modellpaare anhand von mehr als 10.000 echten menschlichen Entscheidungen in mehrrundigen strategischen Spielen – Verhandeln, Überzeugen, Verhandlungen und wiederholten Matrixspielen. In diesen Settings übertreffen Basismodelle ihre alignierten Gegenstücke bei der Vorhersage menschlicher Entscheidungen um fast 10:1, und dies robust über Modellfamilien, Prompt-Formulierungen und Spielkonfigurationen hinweg. Dieses Muster kehrt sich jedoch in Situationen um, in denen menschliches Verhalten eher normativen Vorhersagen folgt: Alignierte Modelle dominieren bei Einmal-„Lehrbuch“-Spielen über alle 12 getesteten Typen hinweg sowie bei nicht-strategischen Lotterieentscheidungen – und sogar innerhalb der mehrrundigen Spiele selbst, in Runde eins, bevor sich eine Interaktionshistorie aufbaut. Dieses Grenzbedingungsmuster deutet darauf hin, dass Alignment eine normative Verzerrung induziert: Es verbessert die Vorhersage, wenn menschliches Verhalten relativ gut durch normative Lösungen erfasst wird, verschlechtert sie jedoch in mehrrundigen strategischen Settings, in welchen das Verhalten durch deskriptive Dynamiken wie Reziprozität, Vergeltung und verlaufsabhängige Anpassung geprägt wird. Diese Ergebnisse offenbaren einen fundamentalen Zielkonflikt zwischen der Optimierung von Modellen für die menschliche Nutzung und ihrer Verwendung als Stellvertreter für menschliches Verhalten.

English

Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.

Ausrichtung macht Sprachmodelle normativ, nicht deskriptiv

Alignment Makes Language Models Normative, Not Descriptive

Zusammenfassung

Support