Humanpsychometrische Fragebögen stellen das Verhalten von LLMs falsch dar.

Zusammenfassung

Wir untersuchen, ob psychometrische Fragebögen für Menschen als verlässliche Werkzeuge zur Charakterisierung und Vorhersage des Verhaltens großer Sprachmodelle (LLMs) in alltäglichen Benutzerinteraktionen dienen können. Dazu analysieren wir acht quelloffene LLMs, indem wir ihre Werte- und Persönlichkeitsprofile vergleichen, die aus zwei verschiedenen Methoden abgeleitet wurden: Likert-Selbstauskünfte auf etablierten Fragebögen (PVQ-40/21 und BFI-44/10) sowie Generierungswahrscheinlichkeiten über wertgeladene Antworten auf alltägliche Benutzeranfragen. Die beiden Profile weichen erheblich voneinander ab. Die konstruktinterne Itemkonsistenz, die häufig als Beleg für stabile LLM-Dispositionen angeführt wird, verschwindet in den Generierungswahrscheinlichkeiten. Wir führen diese Diskrepanz darauf zurück, dass explizite lexikalische Hinweisreize in etablierten Fragebogenitems den Modellen ermöglichen, das Zielkonstrukt zu erkennen und in konsistenter, sozial erwünschter Weise zu antworten, während realistische Benutzeranfragen keine derartigen Hinweise bieten. Darüber hinaus verschieben demografische Persona-Prompts die Antworten der Modelle auf menschliche Fragebögen in einer Weise, die mit tatsächlichen menschlichen Mustern übereinstimmt; solche Verschiebungen treten jedoch nicht in den Generierungswahrscheinlichkeiten von Antworten auf realistische Benutzeranfragen auf, was ihre begrenzte Fähigkeit zeigt, das Verhalten von Zielgruppen in realen Benutzerinteraktionen zu simulieren. Insgesamt zeigt unsere Studie, dass psychometrische Fragebögen für Menschen unzureichende Werkzeuge zur Vorhersage des LLM-Verhaltens sind, und schlägt ein generierungsbasiertes Profiling als genauere Messmethode vor.

English

We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday user interactions. We analyze eight open-source LLMs by comparing their value and personality profiles derived from two different methods: Likert self-reports on established questionnaires (PVQ-40/21 and BFI-44/10) and generation probabilities over value-laden responses to everyday user queries. The two profiles diverge substantially. Within-construct item consistency, often cited as evidence of stable LLM dispositions, disappears in generation probabilities. We attribute this gap to the fact that explicit lexical cues in established questionnaire items allow models to recognize the target construct and respond in alignment-consistent, socially desirable ways, whereas realistic user queries provide no such cues. In addition, demographic persona prompts shift models' responses to human questionnaires in ways consistent with real human patterns, but no such shifts appear in the generation probabilities of responses to realistic user queries, showing their limited ability to simulate the behaviors of target demographics in real-world user interactions. Overall, our study shows that human psychometric questionnaires are insufficient tools for predicting LLM behavior and suggests generation-based profiling as a more accurate measure.