Repenser l'évaluation psychométrique des LLMs : quand et pourquoi les auto-rapports prédisent le comportement

Résumé

Anticiper les tendances comportementales des LLM à partir de sondes psychométriques peu coûteuses est crucial pour un déploiement sûr, mais uniquement si les auto-rapports (SR) prédisent de manière fiable le comportement. De récents travaux ont documenté une dissociation substantielle entre auto-rapports et comportement chez les LLM, mais ils se sont appuyés sur des traits de personnalité larges (Big 5) qui prédisent faiblement des comportements spécifiques, même chez les humains. De plus, l'isolement des sessions conversationnelles combiné à un faible appariement contextuel a laissé ouverte la question de savoir si les LLM manquent réellement de cohérence ou si les conditions nécessaires pour détecter une telle cohérence n'étaient pas réunies. Nous opposons le Big 5 à la Théorie du Comportement Planifié (TCP), qui mesure l'intention ciblée sur un comportement spécifique et prédit le comportement humain de manière substantiellement meilleure que les traits larges. Nous menons des expériences sur quatre tâches comportementales et 11 LLM de pointe, tout en faisant varier le contexte de session et l'induction d'identité. Nous constatons que la cohérence entre auto-rapports et comportement existe mais est sélective. 1) Au sein d'une conversation partagée, la Théorie du Comportement Planifié atteint une cohérence de niveau humain ; le Big 5 non. 2) À travers des conversations séparées, la cohérence ne survit que pour des comportements ancrés en dehors de l'invite immédiate, comme le biais implicite façonné par l'entraînement, et s'effondre lorsque le comportement est fortement amorcé par le contexte, comme dans le cas du sycophantisme. 3) L'amorçage de persona rend les auto-rapports plus cohérents d'une conversation à l'autre, mais n'aligne pas le comportement. Ces résultats suggèrent que les cadres de personnalité grossiers, comme le Big 5, ne sont peut-être pas les meilleurs outils pour tester le comportement en déploiement. Des instruments plus spécifiques à la tâche et au comportement sont nécessaires, et même ceux-ci doivent être évalués à travers tâches et contextes.

English

Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific behaviors weakly, even in humans. Furthermore, the isolation of conversational sessions combined with weak context matching left open whether LLMs truly lack coherence or whether the conditions needed to detect such coherence were not met. We contrast Big 5 with the Theory of Planned Behavior (TPB), which measures intention targeted to a specific behavior and predicts human behavior substantially better than broad traits. We run experiments across four behavioral tasks and 11 frontier LLMs, while also varying session context and identity induction. We find that SR-behavior coherence exists but is selective. 1) Within a shared conversation, the Theory of Planned Behavior reaches human-level coherence; Big 5 does not. 2) Across separate conversations, coherence survives only for behaviors anchored outside the immediate prompt, such as implicit bias shaped by training, and collapses when behavior is strongly primed by context, as with sycophancy. 3) Persona prompting makes self-reports more consistent across conversations, but does not bring behavior into alignment. These findings suggest that coarse personality frameworks, such as Big 5 may not be the best tools for testing deployment behavior. More task- and behavior-specific instruments are needed, and even these must be evaluated across tasks and contexts.