Переосмысление психометрической оценки больших языковых моделей: когда и почему самоотчеты предсказывают поведение

Аннотация

Прогнозирование поведенческих тенденций LLM на основе недорогих психометрических зондов критически важно для безопасного развертывания, но только при условии, что самоотчеты (СО) надежно предсказывают поведение. Недавние работы выявили существенное расхождение между СО и поведением LLM, однако опирались на широкие черты личности (Большая пятерка), которые слабо предсказывают конкретное поведение даже у людей. Кроме того, изоляция сессий общения в сочетании со слабым согласованием контекста оставила открытым вопрос: действительно ли LLM лишены согласованности или же условия, необходимые для ее обнаружения, не были соблюдены. Мы сопоставляем Большую пятерку с Теорией запланированного поведения (ТЗП), которая измеряет намерение, направленное на конкретное поведение, и существенно лучше предсказывает поведение человека, чем широкие черты. Мы проводим эксперименты на четырех поведенческих задачах и 11 передовых LLM, одновременно варьируя контекст сессии и индукцию идентичности. Мы обнаруживаем, что согласованность СО и поведения существует, но носит избирательный характер. 1) В рамках общего диалога Теория запланированного поведения достигает уровня согласованности, свойственного человеку; Большая пятерка — нет. 2) В отдельных диалогах согласованность сохраняется только для поведения, закрепленного вне непосредственной подсказки, такого как имплицитные предубеждения, сформированные обучением, и разрушается, когда поведение сильно индуцируется контекстом, как в случае с сикофантией. 3) Подсказка персоны делает самоотчеты более согласованными между диалогами, но не приводит поведение в соответствие. Эти результаты свидетельствуют о том, что грубые модели личности, такие как Большая пятерка, могут быть не лучшими инструментами для проверки поведения при развертывании. Необходимы более специфичные для задач и поведения инструменты, и даже они должны оцениваться в разных задачах и контекстах.

English

Anticipating LLM behavioral tendencies from low-cost psychometric probes is critical for safe deployment, but only if self-reports (SR) reliably predict behavior. Recent work documented substantial SR-behavior dissociation in LLMs, but relied on broad personality traits (Big 5) that predict specific behaviors weakly, even in humans. Furthermore, the isolation of conversational sessions combined with weak context matching left open whether LLMs truly lack coherence or whether the conditions needed to detect such coherence were not met. We contrast Big 5 with the Theory of Planned Behavior (TPB), which measures intention targeted to a specific behavior and predicts human behavior substantially better than broad traits. We run experiments across four behavioral tasks and 11 frontier LLMs, while also varying session context and identity induction. We find that SR-behavior coherence exists but is selective. 1) Within a shared conversation, the Theory of Planned Behavior reaches human-level coherence; Big 5 does not. 2) Across separate conversations, coherence survives only for behaviors anchored outside the immediate prompt, such as implicit bias shaped by training, and collapses when behavior is strongly primed by context, as with sycophancy. 3) Persona prompting makes self-reports more consistent across conversations, but does not bring behavior into alignment. These findings suggest that coarse personality frameworks, such as Big 5 may not be the best tools for testing deployment behavior. More task- and behavior-specific instruments are needed, and even these must be evaluated across tasks and contexts.