Questionários Psicométricos Humanos Caracterizam Erroneamente o Comportamento de LLMs

Resumo

Analisamos se questionários psicométricos humanos podem servir como ferramentas confiáveis para caracterizar e prever o comportamento de LLMs em interações cotidianas com usuários. Analisamos oito LLMs de código aberto, comparando seus perfis de valores e personalidade derivados de dois métodos distintos: autorrelatos Likert em questionários estabelecidos (PVQ-40/21 e BFI-44/10) e probabilidades de geração sobre respostas carregadas de valor a consultas cotidianas de usuários. Os dois perfis divergem substancialmente. A consistência de itens dentro do mesmo construto, frequentemente citada como evidência de disposições estáveis dos LLMs, desaparece nas probabilidades de geração. Atribuímos essa lacuna ao fato de que pistas lexicais explícitas em itens de questionários estabelecidos permitem que os modelos reconheçam o construto alvo e respondam de maneiras socialmente desejáveis e alinhadas à consistência, enquanto consultas realistas de usuários não fornecem tais pistas. Além disso, estímulos de persona demográfica alteram as respostas dos modelos a questionários humanos de modo consistente com padrões humanos reais, mas tais alterações não aparecem nas probabilidades de geração de respostas a consultas realistas de usuários, demonstrando sua capacidade limitada de simular comportamentos de grupos demográficos-alvo em interações reais com usuários. No geral, nosso estudo mostra que questionários psicométricos humanos são ferramentas insuficientes para prever o comportamento de LLMs e sugere o perfilamento baseado em geração como uma medida mais precisa.

English

We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday user interactions. We analyze eight open-source LLMs by comparing their value and personality profiles derived from two different methods: Likert self-reports on established questionnaires (PVQ-40/21 and BFI-44/10) and generation probabilities over value-laden responses to everyday user queries. The two profiles diverge substantially. Within-construct item consistency, often cited as evidence of stable LLM dispositions, disappears in generation probabilities. We attribute this gap to the fact that explicit lexical cues in established questionnaire items allow models to recognize the target construct and respond in alignment-consistent, socially desirable ways, whereas realistic user queries provide no such cues. In addition, demographic persona prompts shift models' responses to human questionnaires in ways consistent with real human patterns, but no such shifts appear in the generation probabilities of responses to realistic user queries, showing their limited ability to simulate the behaviors of target demographics in real-world user interactions. Overall, our study shows that human psychometric questionnaires are insufficient tools for predicting LLM behavior and suggests generation-based profiling as a more accurate measure.