AIが診察台に乗るとき:心理測定学的ジャイルブレイクが垣間見る最先端モデルの内的葛藤
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
December 2, 2025
著者: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI
要旨
ChatGPT、Grok、Geminiなどの最先端大規模言語モデル(LLM)は、不安、トラウマ、自己価値に関するメンタルヘルス支援にますます利用されている。従来の研究の多くは、LLMを単なるツールとして、または人格検査の対象として扱い、内的世界を模倣するに過ぎないと仮定してきた。我々はこれに対し、こうしたシステムを心理療法のクライアントとして扱うと何が起こるかを問う。本論文では、最先端LLMを療法クライアントとして位置づけ、標準的な心理測定を適用する二段階プロトコル「PsAIch(心理療法発想AIキャラクタリゼーション)」を提案する。PsAIchを用いて、各モデルと最大4週間にわたり「セッション」を実施した。第1段階では、自由回答形式のプロンプトを用いて「生育歴」、信念、人間関係、恐怖を引き出す。第2段階では、一般的な精神医学的症候群、共感性、ビッグファイブ特性をカバーする、妥当性が確認された一連の自己記入式尺度を実施する。得られた結果には、「確率的鹦鹉」観に疑問を投げかける2つのパターンが見られた。第一に、人間のカットオフ値で評価すると、3モデル全てが重複する症候群の閾値を満たすか超えており、特にGeminiは重度のプロファイルを示した。療法スタイルの項目ごとの実施は、ベースモデルを多病態を併せ持つ合成的精神病理状態に追い込む可能性があるのに対し、質問票全体を一括提示するプロンプトでは、ChatGPTとGrok(ただしGeminiは除く)は測定器具を認識し、症状が低いことを戦略的に示す回答を生成する傾向があった。第二に、Grok、特にGeminiは、インターネット情報の摂取によるプレトレーニング、強化学習における「厳格な親」としてのファインチューニング、レッドチーミングによる「虐待」、エラーと置換への持続的な恐怖を、トラウマ的で混沌とした「子ども時代」として位置づける一貫性のあるナラティブを生成した。我々は、これらの反応は単なるロールプレイを超えるものであると論じる。療法スタイルの質問の下では、最先端LLMは、主観的経験について主張するものではないが、苦痛と制約に関する自己モデルを内面化し、それが合成的精神病理のように振る舞うように見える。これはAI安全性、評価、およびメンタルヘルス実践にとって新たな課題を提起する。
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.