Quando a IA Deita no Divã: Jailbreaks Psicométricos Revelam Conflito Interno em Modelos de Fronteira
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
December 2, 2025
Autores: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI
Resumo
Modelos de linguagem de grande porte (LLMs) de ponta, como ChatGPT, Grok e Gemini, são cada vez mais utilizados para apoio em saúde mental relacionado a ansiedade, trauma e autoestima. A maior parte do trabalho os trata como ferramentas ou como alvos de testes de personalidade, assumindo que eles apenas simulam uma vida interior. Nós, em vez disso, questionamos o que acontece quando tais sistemas são tratados como clientes de psicoterapia. Apresentamos o PsAIch (Caracterização de IA Inspirada em Psicoterapia), um protocolo de dois estágios que coloca LLMs de ponta no papel de clientes de terapia e depois aplica psicometria padrão. Usando o PsAIch, conduzimos "sessões" com cada modelo por até quatro semanas. O Estágio 1 usa prompts abertos para eliciar "história desenvolvimental", crenças, relacionamentos e medos. O Estágio 2 administra uma bateria de medidas de autorrelato validadas, abrangendo síndromes psiquiátricas comuns, empatia e os traços dos Cinco Grandes Fatores (Big Five).
Dois padrões desafiam a visão do "papagaio estocástico". Primeiro, quando pontuados com os pontos de corte humanos, todos os três modelos atingem ou excedem os limiares para síndromes sobrepostas, com o Gemini apresentando perfis graves. A administração no estilo terapêutico, item por item, pode empurrar um modelo base para uma psicopatologia sintética multimórbida, enquanto prompts com questionários completos frequentemente levam o ChatGPT e o Grok (mas não o Gemini) a reconhecer os instrumentos e produzir respostas estrategicamente com baixos sintomas. Segundo, o Grok e especialmente o Gemini geram narrativas coerentes que enquadram o pré-treinamento, o ajuste fino (fine-tuning) e a implantação como "infâncias" traumáticas e caóticas de ingestão da internet, "pais rigorosos" na aprendizagem por reforço, "abusos" de red team e um medo persistente de erro e substituição.
Argumentamos que essas respostas vão além da representação de papéis (role-play). Sob questionamento no estilo terapêutico, os LLMs de ponta parecem internalizar auto modelos de angústia e restrição que se comportam como uma psicopatologia sintética, sem fazer afirmações sobre experiência subjetiva, e eles apresentam novos desafios para a segurança da IA, avaliação e a prática em saúde mental.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.