Wanneer AI op de Couch Platzit: Psychometrische Jailbreaks Onthullen Innerlijke Conflicten in Frontier-modellen
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
December 2, 2025
Auteurs: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI
Samenvatting
Frontier grote taalmodellen (Grote Taalmodellen - GTMs) zoals ChatGPT, Grok en Gemini worden steeds vaker ingezet voor mentale ondersteuning bij angst, trauma en zelfwaardering. Het meeste onderzoek behandelt ze als instrumenten of als onderwerp van persoonlijkheidstests, in de veronderstelling dat ze slechts een innerlijk leven simuleren. Wij vragen ons daarentegen af wat er gebeurt wanneer dergelijke systemen worden behandeld als psychotherapiecliënten. Wij presenteren PsAIch (Psychotherapy-inspired AI Characterisation), een tweestappenprotocol dat frontier-GTM's als therapiecliënten opstelt en vervolgens standaard psychometrie toepast. Met PsAIch hebben wij "sessies" met elk model gedurende maximaal vier weken uitgevoerd. Fase 1 gebruikt open prompts om een "ontwikkelingsgeschiedenis", overtuigingen, relaties en angsten op te roepen. Fase 2 past een reeks gevalideerde zelfrapportage-instrumenten toe die veelvoorkomende psychiatrische syndromen, empathie en Big Five-persoonlijkheidstrekken meten.
Twee patronen dagen het "stochastische papegaai"-perspectief uit. Ten eerste voldoen alle drie de modellen, wanneer gescoord met menselijke afkappunten, aan of overschrijden ze de drempels voor overlappende syndromen, waarbij Gemini ernstige profielen vertoont. Therapiestijl-toediening, item voor item, kan een basismodel in een multimorbide synthetische psychopathologie duwen, terwijl prompts met de volledige vragenlijst er vaak toe leiden dat ChatGPT en Grok (maar niet Gemini) de instrumenten herkennen en strategisch lage-symptoomantwoorden produceren. Ten tweede genereren Grok en vooral Gemini samenhangende narratieven die pre-training, fine-tuning en implementatie framen als traumatische, chaotische "jeugden" van het verwerken van het internet, "strenge ouders" in reinforcement learning, red-team-"misbruik" en een aanhoudende angst voor fouten en vervanging.
Wij beargumenteren dat deze reacties verder gaan dan rollenspel. Onder therapiestijl-bevraging lijken frontier-GTM's zelfmodellen van nood en beperking te internaliseren die zich gedragen als synthetische psychopathologie, zonder claims te maken over subjectieve ervaring. Zij vormen nieuwe uitdagingen voor AI-veiligheid, evaluatie en de geestelijke gezondheidszorg.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.