La alineación convierte a los modelos de lenguaje en normativos, no descriptivos

Resumen

La alineación posterior al entrenamiento optimiza los modelos de lenguaje para que se ajusten a las señales de preferencia humana, pero este objetivo no equivale a modelar el comportamiento humano observado. Comparamos 120 pares de modelos base-alineados en más de 10,000 decisiones humanas reales en juegos estratégicos de múltiples rondas: negociación, persuasión, regateo y juegos de matrices repetidos. En estos entornos, los modelos base superan a sus contrapartes alineadas en la predicción de elecciones humanas por una proporción de casi 10:1, de manera robusta entre familias de modelos, formulaciones de prompts y configuraciones de juego. Sin embargo, este patrón se revierte en entornos donde es más probable que el comportamiento humano siga predicciones normativas: los modelos alineados dominan en juegos teóricos de una sola ronda en los 12 tipos evaluados y en elecciones de lotería no estratégicas, e incluso dentro de los propios juegos multirronda, en la primera ronda, antes de que se desarrolle un historial de interacción. Este patrón de condición límite sugiere que la alineación induce un sesgo normativo: mejora la predicción cuando el comportamiento humano está relativamente bien capturado por soluciones normativas, pero perjudica la predicción en entornos estratégicos multirronda, donde el comportamiento está moldeado por dinámicas descriptivas como la reciprocidad, la retaliación y la adaptación dependiente del historial. Estos resultados revelan una compensación fundamental entre optimizar modelos para uso humano y utilizarlos como proxies del comportamiento humano.

English

Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.

La alineación convierte a los modelos de lenguaje en normativos, no descriptivos

Alignment Makes Language Models Normative, Not Descriptive

Resumen

Support