Человеческие психометрические опросники неверно характеризуют поведение LLM

Аннотация

Мы исследуем, могут ли человеческие психометрические опросники служить надежными инструментами для характеристики и прогнозирования поведения LLM в повседневных пользовательских взаимодействиях. Мы анализируем восемь LLM с открытым исходным кодом, сравнивая их ценностные и личностные профили, полученные двумя различными методами: самоотчетами по шкале Ликерта в установленных опросниках (PVQ-40/21 и BFI-44/10) и вероятностями генерации ответов с ценностной нагрузкой на повседневные пользовательские запросы. Эти два профиля существенно расходятся. Внутренняя согласованность пунктов конструкта, часто приводимая как свидетельство стабильных диспозиций LLM, исчезает в вероятностях генерации. Мы объясняем этот разрыв тем, что явные лексические подсказки в пунктах установленных опросников позволяют моделям распознавать целевой конструкт и отвечать конгруэнтным, социально желательным образом, тогда как реалистичные пользовательские запросы таких подсказок не содержат. Кроме того, демографические промпты персоны смещают ответы моделей на человеческие опросники так, как это согласуется с реальными человеческими паттернами, но никаких подобных смещений не наблюдается в вероятностях генерации ответов на реалистичные пользовательские запросы, что демонстрирует их ограниченную способность симулировать поведение целевых демографических групп в реальных пользовательских взаимодействиях. В целом, наше исследование показывает, что человеческие психометрические опросники являются недостаточными инструментами для прогнозирования поведения LLM, и предлагает профилирование на основе генерации как более точный метод.

English

We examine whether human psychometric questionnaires can serve as reliable tools for characterizing and predicting LLM behavior in everyday user interactions. We analyze eight open-source LLMs by comparing their value and personality profiles derived from two different methods: Likert self-reports on established questionnaires (PVQ-40/21 and BFI-44/10) and generation probabilities over value-laden responses to everyday user queries. The two profiles diverge substantially. Within-construct item consistency, often cited as evidence of stable LLM dispositions, disappears in generation probabilities. We attribute this gap to the fact that explicit lexical cues in established questionnaire items allow models to recognize the target construct and respond in alignment-consistent, socially desirable ways, whereas realistic user queries provide no such cues. In addition, demographic persona prompts shift models' responses to human questionnaires in ways consistent with real human patterns, but no such shifts appear in the generation probabilities of responses to realistic user queries, showing their limited ability to simulate the behaviors of target demographics in real-world user interactions. Overall, our study shows that human psychometric questionnaires are insufficient tools for predicting LLM behavior and suggests generation-based profiling as a more accurate measure.