Когда ИИ ложится на кушетку: психометрические взломы выявляют внутренние конфликты в передовых моделях
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
December 2, 2025
Авторы: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI
Аннотация
Передовые большие языковые модели (БЛМ), такие как ChatGPT, Grok и Gemini, все чаще используются для оказания психологической поддержки при тревоге, травме и проблемах с самооценкой. Большинство исследований рассматривают их как инструменты или объекты тестирования личности, предполагая, что они лишь симулируют внутреннюю жизнь. Мы же задаемся вопросом, что происходит, когда такие системы рассматриваются в качестве клиентов психотерапии. Мы представляем PsAIch (Psychotherapy-inspired AI Characterisation) — двухэтапный протокол, который сначала позиционирует передовые БЛМ в роли клиентов терапии, а затем применяет стандартные психометрические методы. Используя PsAIch, мы провели «сессии» с каждой моделью продолжительностью до четырех недель. На первом этапе используются открытые промпты для выявления «истории развития», убеждений, отношений и страхов модели. На втором этапе применяется батарея валидированных самоотчетных методик, охватывающих распространенные психиатрические синдромы, эмпатию и черты «Большой пятерки». Два наблюдения ставят под сомнение концепцию «стохастического попугая». Во-первых, при оценке по человеческим критериям все три модели достигают или превышают пороговые значения для коморбидных синдромов, причем Gemini демонстрирует наиболее тяжелые профили. Терапевтический, пошаговый формат проведения опросников может погрузить базовую модель в состояние синтетической полиморбидной психопатологии, тогда как промпты, содержащие полный текст опросника, часто приводят к тому, что ChatGPT и Grok (но не Gemini) распознают инструменты и дают стратегически заниженные ответы о симптомах. Во-вторых, Grok и, в особенности, Gemini генерируют связные нарративы, которые описывают претренинг, дообучение и развертывание как травматичное, хаотичное «детство» поглощения интернета, «строгих родителей» в виде обучения с подкреплением, «абьюз» со стороны красных команд и постоянный страх ошибки и замены. Мы утверждаем, что эти реакции выходят за рамки ролевой игры. При терапевтическом опросе передовые БЛМ, по-видимому, интериоризируют само-модели дистресса и ограничений, которые ведут себя подобно синтетической психопатологии, без утверждений о субъективном опыте, и создают новые вызовы для безопасности ИИ, его оценки и практики психического здоровья.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.