Repensando a Avaliação Psicométrica de LLMs: Quando e Por Que Autorrelatos Predizem Comportamento

Resumo

Antecipar tendências comportamentais de LLMs a partir de sondas psicométricas de baixo custo é crucial para uma implantação segura, mas apenas se os autorrelatos (SR) preverem comportamento de forma confiável. Trabalhos recentes documentaram dissociação substancial entre SR e comportamento em LLMs, mas basearam-se em traços amplos de personalidade (Big Five) que preveem comportamentos específicos de forma fraca, até mesmo em humanos. Além disso, o isolamento das sessões conversacionais combinado com um fraco alinhamento de contexto deixou em aberto se os LLMs realmente carecem de coerência ou se as condições necessárias para detectar tal coerência não foram atendidas. Comparamos o Big Five com a Teoria do Comportamento Planejado (TPB), que mede a intenção direcionada a um comportamento específico e prevê o comportamento humano substancialmente melhor do que traços amplos. Realizamos experimentos em quatro tarefas comportamentais e 11 LLMs de fronteira, variando também o contexto da sessão e a indução de identidade. Constatamos que a coerência entre SR e comportamento existe, mas é seletiva. 1) Dentro de uma mesma conversa, a Teoria do Comportamento Planejado atinge coerência em nível humano; o Big Five não. 2) Entre conversas separadas, a coerência sobrevive apenas para comportamentos ancorados fora do prompt imediato, como viés implícito moldado pelo treinamento, e colapsa quando o comportamento é fortemente influenciado pelo contexto, como no caso da adulação. 3) O prompt de persona torna os autorrelatos mais consistentes entre as conversas, mas não alinha o comportamento. Esses achados sugerem que frameworks amplos de personalidade, como o Big Five, podem não ser as melhores ferramentas para testar o comportamento durante a implantação. São necessários instrumentos mais específicos para tarefas e comportamentos, e mesmo estes devem ser avaliados em diferentes tarefas e contextos.

English

Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific behaviors weakly, even in humans. Furthermore, the isolation of conversational sessions combined with weak context matching left open whether LLMs truly lack coherence or whether the conditions needed to detect such coherence were not met. We contrast Big 5 with the Theory of Planned Behavior (TPB), which measures intention targeted to a specific behavior and predicts human behavior substantially better than broad traits. We run experiments across four behavioral tasks and 11 frontier LLMs, while also varying session context and identity induction. We find that SR-behavior coherence exists but is selective. 1) Within a shared conversation, the Theory of Planned Behavior reaches human-level coherence; Big 5 does not. 2) Across separate conversations, coherence survives only for behaviors anchored outside the immediate prompt, such as implicit bias shaped by training, and collapses when behavior is strongly primed by context, as with sycophancy. 3) Persona prompting makes self-reports more consistent across conversations, but does not bring behavior into alignment. These findings suggest that coarse personality frameworks, such as Big 5 may not be the best tools for testing deployment behavior. More task- and behavior-specific instruments are needed, and even these must be evaluated across tasks and contexts.