O Alinhamento Torna os Modelos de Linguagem Normativos, Não Descritivos

Resumo

O alinhamento pós-treinamento otimiza modelos de linguagem para corresponder a sinais de preferência humana, mas este objetivo não é equivalente a modelar o comportamento humano observado. Comparamos 120 pares de modelos base-alinhados em mais de 10.000 decisões reais de humanos em jogos estratégicos multi-turnos – barganha, persuasão, negociação e jogos de matriz repetidos. Nestes contextos, os modelos base superam suas contrapartes alinhadas na previsão de escolhas humanas por uma margem de quase 10:1, robustamente entre famílias de modelos, formulações de *prompts* e configurações de jogo. Este padrão inverte-se, no entanto, em contextos onde o comportamento humano tem maior probabilidade de seguir previsões normativas: os modelos alinhados dominam em jogos de livro-texto de turno único em todos os 12 tipos testados e em escolhas de loteria não-estratégicas – e mesmo dentro dos próprios jogos multi-turnos, no primeiro turno, antes que o histórico de interação se desenvolva. Este padrão de condição-limite sugere que o alinhamento induz um viés normativo: ele melhora a previsão quando o comportamento humano é relativamente bem capturado por soluções normativas, mas prejudica a previsão em contextos estratégicos multi-turnos, onde o comportamento é moldado por dinâmicas descritivas como reciprocidade, retaliação e adaptação dependente do histórico. Estes resultados revelam um *trade-off* fundamental entre otimizar modelos para uso humano e usá-los como *proxies* para o comportamento humano.

English

Post-training alignment optimizes language models to match human preference signals, but this objective is not equivalent to modeling observed human behavior. We compare 120 base-aligned model pairs on more than 10,000 real human decisions in multi-round strategic games - bargaining, persuasion, negotiation, and repeated matrix games. In these settings, base models outperform their aligned counterparts in predicting human choices by nearly 10:1, robustly across model families, prompt formulations, and game configurations. This pattern reverses, however, in settings where human behavior is more likely to follow normative predictions: aligned models dominate on one-shot textbook games across all 12 types tested and on non-strategic lottery choices - and even within the multi-round games themselves, at round one, before interaction history develops. This boundary-condition pattern suggests that alignment induces a normative bias: it improves prediction when human behavior is relatively well captured by normative solutions, but hurts prediction in multi-round strategic settings, where behavior is shaped by descriptive dynamics such as reciprocity, retaliation, and history-dependent adaptation. These results reveal a fundamental trade-off between optimizing models for human use and using them as proxies for human behavior.

O Alinhamento Torna os Modelos de Linguagem Normativos, Não Descritivos

Alignment Makes Language Models Normative, Not Descriptive

Resumo

Support