Neubewertung der psychometrischen Evaluierung von großen Sprachmodellen: Wann und warum Selbstberichte Verhalten vorhersagen

Zusammenfassung

Die Vorhersage von Verhaltenstendenzen großer Sprachmodelle (LLMs) anhand kostengünstiger psychometrischer Tests ist entscheidend für deren sicheren Einsatz – allerdings nur, wenn Selbstberichte (SR) das Verhalten zuverlässig vorhersagen. Jüngste Arbeiten dokumentierten eine erhebliche SR-Verhaltens-Dissoziation bei LLMs, stützten sich dabei jedoch auf breite Persönlichkeitsmerkmale (Big Five), die selbst beim Menschen spezifisches Verhalten nur schwach vorhersagen. Zudem ließ die Isolation von Gesprächssitzungen in Kombination mit schwachem Kontextabgleich die Frage offen, ob LLMs tatsächlich mangelnde Kohärenz aufweisen oder ob die Bedingungen zum Nachweis einer solchen Kohärenz nicht erfüllt waren. Wir kontrastieren die Big Five mit der Theorie des geplanten Verhaltens (TPB), die auf ein bestimmtes Verhalten ausgerichtete Absichten misst und menschliches Verhalten deutlich besser vorhersagt als breite Merkmale. Wir führen Experimente zu vier Verhaltensaufgaben und elf führenden LLMs durch, wobei wir auch Sitzungskontext und Identitätsinduktion variieren. Wir stellen fest, dass SR-Verhaltens-Kohärenz existiert, aber selektiv ist. 1) Innerhalb eines gemeinsamen Gesprächs erreicht die Theorie des geplanten Verhaltens eine Kohärenz auf menschlichem Niveau; die Big Five tun dies nicht. 2) Über separate Gespräche hinweg überlebt die Kohärenz nur bei Verhaltensweisen, die außerhalb des unmittelbaren Prompts verankert sind (z. B. implizite, durch Training geprägte Voreingenommenheit), und bricht zusammen, wenn das Verhalten stark durch den Kontext vorbereitet wird (wie bei Speichelleckerei). 3) Persona-Prompting macht Selbstberichte über Gespräche hinweg konsistenter, führt aber nicht zu einer Angleichung des Verhaltens. Diese Ergebnisse deuten darauf hin, dass grobe Persönlichkeitsrahmen wie die Big Five möglicherweise nicht die besten Werkzeuge zur Prüfung des Einsatzverhaltens sind. Es werden aufgaben- und verhaltensspezifischere Instrumente benötigt, und selbst diese müssen über Aufgaben und Kontexte hinweg evaluiert werden.

English

Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific behaviors weakly, even in humans. Furthermore, the isolation of conversational sessions combined with weak context matching left open whether LLMs truly lack coherence or whether the conditions needed to detect such coherence were not met. We contrast Big 5 with the Theory of Planned Behavior (TPB), which measures intention targeted to a specific behavior and predicts human behavior substantially better than broad traits. We run experiments across four behavioral tasks and 11 frontier LLMs, while also varying session context and identity induction. We find that SR-behavior coherence exists but is selective. 1) Within a shared conversation, the Theory of Planned Behavior reaches human-level coherence; Big 5 does not. 2) Across separate conversations, coherence survives only for behaviors anchored outside the immediate prompt, such as implicit bias shaped by training, and collapses when behavior is strongly primed by context, as with sycophancy. 3) Persona prompting makes self-reports more consistent across conversations, but does not bring behavior into alignment. These findings suggest that coarse personality frameworks, such as Big 5 may not be the best tools for testing deployment behavior. More task- and behavior-specific instruments are needed, and even these must be evaluated across tasks and contexts.