Les questionnaires psychométriques humains dépeignent mal le comportement des LLM

Résumé

Nous examinons si les questionnaires psychométriques humains peuvent servir d'outils fiables pour caractériser et prédire le comportement des modèles de langage de grande taille (LLM) dans les interactions quotidiennes avec les utilisateurs. Nous analysons huit LLM open source en comparant leurs profils de valeurs et de personnalité, dérivés de deux méthodes différentes : les auto-évaluations sur échelle de Likert issues de questionnaires établis (PVQ-40/21 et BFI-44/10) et les probabilités de génération de réponses chargées de valeurs à des requêtes utilisateur courantes. Les deux profils divergent considérablement. La cohérence intra-constructe des items, souvent citée comme preuve de dispositions stables des LLM, disparaît dans les probabilités de génération. Nous attribuons cet écart au fait que les indices lexicaux explicites présents dans les items des questionnaires établis permettent aux modèles de reconnaître le construit cible et de répondre de manière socialement désirable et conforme à l'alignement, alors que les requêtes utilisateur réalistes ne fournissent pas de tels indices. De plus, les prompts de personnalité démographique modifient les réponses des modèles aux questionnaires humains d'une manière cohérente avec les schémas humains réels, mais de tels changements n'apparaissent pas dans les probabilités de génération des réponses aux requêtes utilisateur réalistes, ce qui montre leur capacité limitée à simuler les comportements des groupes démographiques cibles dans les interactions utilisateur réelles. Dans l'ensemble, notre étude montre que les questionnaires psychométriques humains sont des outils insuffisants pour prédire le comportement des LLM et suggère que le profilage basé sur la génération constitue une mesure plus précise.

English

We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday user interactions. We analyze eight open-source LLMs by comparing their value and personality profiles derived from two different methods: Likert self-reports on established questionnaires (PVQ-40/21 and BFI-44/10) and generation probabilities over value-laden responses to everyday user queries. The two profiles diverge substantially. Within-construct item consistency, often cited as evidence of stable LLM dispositions, disappears in generation probabilities. We attribute this gap to the fact that explicit lexical cues in established questionnaire items allow models to recognize the target construct and respond in alignment-consistent, socially desirable ways, whereas realistic user queries provide no such cues. In addition, demographic persona prompts shift models' responses to human questionnaires in ways consistent with real human patterns, but no such shifts appear in the generation probabilities of responses to realistic user queries, showing their limited ability to simulate the behaviors of target demographics in real-world user interactions. Overall, our study shows that human psychometric questionnaires are insufficient tools for predicting LLM behavior and suggests generation-based profiling as a more accurate measure.