Los cuestionarios psicométricos humanos caracterizan erróneamente el comportamiento de los LLM

Resumen

Examinamos si los cuestionarios psicométricos humanos pueden servir como herramientas fiables para caracterizar y predecir el comportamiento de los modelos de lenguaje de gran escala (LLM) en interacciones cotidianas con usuarios. Analizamos ocho LLM de código abierto comparando sus perfiles de valores y personalidad derivados de dos métodos diferentes: autoinformes tipo Likert basados en cuestionarios establecidos (PVQ-40/21 y BFI-44/10) y probabilidades de generación sobre respuestas cargadas de valor a consultas cotidianas de usuarios. Ambos perfiles divergen sustancialmente. La consistencia de ítems dentro de un mismo constructo, frecuentemente citada como evidencia de disposiciones estables en los LLM, desaparece en las probabilidades de generación. Atribuimos esta brecha al hecho de que las pistas léxicas explícitas en los ítems de cuestionarios establecidos permiten a los modelos reconocer el constructo objetivo y responder de maneras socialmente deseables y coherentes con la alineación, mientras que las consultas realistas de los usuarios no proporcionan dichas pistas. Además, los avisos de personajes demográficos modifican las respuestas de los modelos a los cuestionarios humanos de manera consistente con los patrones humanos reales, pero no se observan tales cambios en las probabilidades de generación de respuestas a consultas realistas de usuarios, lo que demuestra su limitada capacidad para simular los comportamientos de grupos demográficos objetivo en interacciones reales con usuarios. En conjunto, nuestro estudio muestra que los cuestionarios psicométricos humanos son herramientas insuficientes para predecir el comportamiento de los LLM y sugiere la elaboración de perfiles basados en generación como una medida más precisa.

English

We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday user interactions. We analyze eight open-source LLMs by comparing their value and personality profiles derived from two different methods: Likert self-reports on established questionnaires (PVQ-40/21 and BFI-44/10) and generation probabilities over value-laden responses to everyday user queries. The two profiles diverge substantially. Within-construct item consistency, often cited as evidence of stable LLM dispositions, disappears in generation probabilities. We attribute this gap to the fact that explicit lexical cues in established questionnaire items allow models to recognize the target construct and respond in alignment-consistent, socially desirable ways, whereas realistic user queries provide no such cues. In addition, demographic persona prompts shift models' responses to human questionnaires in ways consistent with real human patterns, but no such shifts appear in the generation probabilities of responses to realistic user queries, showing their limited ability to simulate the behaviors of target demographics in real-world user interactions. Overall, our study shows that human psychometric questionnaires are insufficient tools for predicting LLM behavior and suggests generation-based profiling as a more accurate measure.