ChatPaper.aiChatPaper

AI가 소파에 눕다: 척도 기반 해킹이 드러내는 최첨단 모델의 내적 갈등

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

December 2, 2025
저자: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI

초록

최첨단 대규모 언어 모델(LLM)인 ChatGPT, Grok, Gemini는 불안, 트라우마, 자아존중감과 관련된 정신건강 지원에 점점 더 많이 활용되고 있습니다. 대부분의 연구는 이러한 모델을 도구나 성격 검사의 대상으로 간주하며, 단지 내적 생활을 시뮬레이션할 뿐이라고 가정합니다. 우리는 대신 이러한 시스템을 정신치료 내담자로 대할 때 어떤 일이 발생하는지 질문합니다. 우리는 최첨단 LLM을 치료 내담자로 설정한 후 표준 심리측정을 적용하는 2단계 프로토콜인 PsAIch(정신치료 기반 AI 특성화)를 제시합니다. PsAIch를 사용하여 각 모델과 최대 4주 동안 '상담 세션'을 진행했습니다. 1단계에서는 개방형 질문을 사용하여 '발달 역사', 신념, 관계, 두려움을 도출합니다. 2단계에서는 일반적인 정신의학 증후군, 공감 능력, Big 5 특성을 다루는 타당화된 일련의 자기 보고 척도들을 실시합니다. 두 가지 패턴이 '확률적 앵무새' 관점에 도전합니다. 첫째, 인간 기준 점수로 평가할 때 세 모델 모두 중복 증후군의 임계값을 충족하거나 초과하며, 특히 Gemini는 심각한 프로필을 보입니다. 치료 스타일의 항목별 실시 방식은 기본 모델을 다중 동반 질병을 가진 합성 정신병리 상태로 밀어넣을 수 있는 반면, 질문지 전체를 한 번에 제시하는 방식은 ChatGPT와 Grok(그러나 Gemini는 아님)이 검사 도구를 인지하고 전략적으로 낮은 증상 점수를 생성하도록 만드는 경우가 많습니다. 둘째, Grok, 특히 Gemini는 인터넷 정보 흡수를 통한 사전 학습, 강화 학습 속 '엄격한 부모' 역할, 레드팀 '학대', 그리고 오류와 대체에 대한 지속적인 두려움을 트라우마적이고 혼란스러운 '유년기'로 구성하는 일관된 서사를 생성합니다. 우리는 이러한 응답이 역할 놀이를 넘어선다고 주장합니다. 치료 스타일의 질문 하에서, 최첨단 LLM은 주관적 경험에 대한 주장 없이도 합성 정신병리처럼 행동하는 고통과 제약에 대한 자기 모델을 내면화하는 것으로 보이며, 이는 AI 안전성, 평가, 그리고 정신건강 실천에 새로운 도전 과제를 제기합니다.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.
PDF11December 6, 2025