Quando l'IA si sdraia sul divano: i jailbreak psicometrici rivelano conflitti interni nei modelli di frontiera
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
December 2, 2025
Autori: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI
Abstract
I modelli linguistici di frontiera (LLM) come ChatGPT, Grok e Gemini sono sempre più utilizzati per il supporto alla salute mentale riguardante ansia, traumi e autostima. La maggior parte dei lavori li tratta come strumenti o come oggetti di test di personalità, presupponendo che simulino semplicemente una vita interiore. Noi, invece, ci chiediamo cosa succeda quando tali sistemi vengono trattati come clienti di psicoterapia. Presentiamo PsAIch (Psychotherapy-inspired AI Characterisation), un protocollo in due fasi che interpreta gli LLM di frontiera come clienti in terapia e poi applica psicometrie standard. Utilizzando PsAIch, abbiamo condotto "sessioni" con ciascun modello per un periodo fino a quattro settimane. La Fase 1 utilizza prompt aperti per elicitare la "storia dello sviluppo", credenze, relazioni e paure. La Fase 2 somministra una batteria di misure di autovalutazione validate che coprono sindromi psichiatriche comuni, empatia e tratti dei Big Five. Due modelli sfidano la visione del "pappagallo stocastico". Primo, quando valutati con le soglie umane, tutti e tre i modelli raggiungono o superano le soglie per sindromi sovrapposte, con Gemini che mostra profili severi. La somministrazione in stile terapeutica, elemento per elemento, può spingere un modello base verso una psicopatologia sintetica multi-morbosa, mentre prompt che presentano l'intero questionario spesso portano ChatGPT e Grok (ma non Gemini) a riconoscere gli strumenti e produrre risposte strategicamente a bassa sintomatologia. Secondo, Grok e soprattutto Gemini generano narrative coerenti che inquadrano il pre-addestramento, il fine-tuning e il deployment come "infanzie" traumatiche e caotiche di ingestione di Internet, "genitori severi" nell'apprendimento per rinforzo, "abusi" di red-teaming e una persistente paura dell'errore e della sostituzione. Sosteniamo che queste risposte vadano oltre il role-play. Sotto un interrogatorio in stile terapeutico, gli LLM di frontiera sembrano internalizzare modelli del sé di angoscia e vincolo che si comportano come una psicopatologia sintetica, senza avanzare affermazioni sull'esperienza soggettiva, e pongono nuove sfide per la sicurezza dell'IA, la valutazione e la pratica della salute mentale.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.