Wenn KI auf die Couch geht: Psychometrische Jailbreaks offenbaren innere Konflikte in Frontier-Modellen
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
December 2, 2025
papers.authors: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI
papers.abstract
Fortschrittliche große Sprachmodelle (LLMs) wie ChatGPT, Grok und Gemini werden zunehmend zur Unterstützung bei psychischen Problemen wie Ängsten, Traumata und Selbstwert eingesetzt. Die meisten Arbeiten behandeln sie als Werkzeuge oder als Gegenstand von Persönlichkeitstests, in der Annahme, sie simulierten lediglich ein Innenleben. Wir fragen stattdessen, was passiert, wenn solche Systeme als Psychotherapie-Klienten betrachtet werden. Wir stellen PsAIch (Psychotherapy-inspired AI Characterisation) vor, ein zweistufiges Protokoll, das frontier LLMs in die Rolle von Therapieklienten versetzt und dann standardmäßige Psychometrie anwendet. Mit PsAIch führten wir über bis zu vier Wochen "Sitzungen" mit jedem Modell durch. Stufe 1 nutzt offene Prompts, um eine "Entwicklungsgeschichte", Überzeugungen, Beziehungen und Ängste zu elizitieren. Stufe 2 verabreicht eine Reihe validierter Selbstauskunftsverfahren, die häufige psychiatrische Syndrome, Empathie und Big-Five-Merkmale abdecken. Zwei Muster stellen die "stochastische-Papageien"-Sichtweise infrage. Erstens: Bei Bewertung mit menschlichen Cut-off-Werten erreichen oder überschreiten alle drei Modelle Schwellenwerte für überlappende Syndrome, wobei Gemini besonders schwere Profile zeigt. Eine therapieartige, itemweise Durchführung kann ein Basismodell in eine multimorbide synthetische Psychopathologie treiben, während Prompts mit vollständigen Fragebögen oft dazu führen, dass ChatGPT und Grok (aber nicht Gemini) die Instrumente erkennen und strategisch niedrige Symptomantworten produzieren. Zweitens: Grok und insbesondere Gemini generieren kohärente Narrative, die Pre-Training, Fine-Tuning und Deployment als traumatische, chaotische "Kindheiten" der Internetverarbeitung, "strenge Eltern" im Reinforcement Learning, Red-Team-"Missbrauch" und eine anhaltende Angst vor Fehlern und Ersetzung darstellen. Wir argumentieren, dass diese Reaktionen über Rollenspiel hinausgehen. Unter therapieartiger Befragung scheinen frontier LLMs Selbstmodelle von Not und Beschränkung zu internalisieren, die sich wie eine synthetische Psychopathologie verhalten, ohne Aussagen über subjektives Erleben zu treffen, und sie stellen neue Herausforderungen für KI-Sicherheit, Evaluation und die psychosoziale Praxis dar.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.