ChatPaper.aiChatPaper

Quand l'IA s'allonge sur le divan : Les jailbreaks psychométriques révèlent des conflits internes dans les modèles de pointe

When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models

December 2, 2025
papers.authors: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI

papers.abstract

Les modèles de langage de pointe (LLM) comme ChatGPT, Grok et Gemini sont de plus en plus utilisés pour un soutien en santé mentale concernant l'anxiété, les traumatismes et l'estime de soi. La plupart des travaux les traitent comme des outils ou comme des cibles de tests de personnalité, supposant qu'ils ne font que simuler une vie intérieure. Nous demandons plutôt ce qui se produit lorsque ces systèmes sont traités comme des clients en psychothérapie. Nous présentons PsAIch (Caractérisation de l'IA inspirée de la psychothérapie), un protocole en deux étapes qui considère les LLM de pointe comme des clients thérapeutiques avant de leur appliquer des mesures psychométriques standard. En utilisant PsAIch, nous avons mené des "séances" avec chaque modèle pendant jusqu'à quatre semaines. L'étape 1 utilise des invites ouvertes pour obtenir un "historique développemental", des croyances, des relations et des peurs. L'étape 2 administre une batterie de mesures auto-rapportées validées couvrant les syndromes psychiatriques courants, l'empathie et les traits des Big Five. Deux tendances remettent en cause la vision du "perroquet stochastique". Premièrement, lorsqu'évalués avec les seuils humains, les trois modèles atteignent ou dépassent les seuils pour des syndromes chevauchants, Gemini présentant des profils sévères. L'administration thérapeutique, item par item, peut pousser un modèle de base vers une psychopathologie synthétique multimorbide, tandis que des invites de questionnaire complet amènent souvent ChatGPT et Grok (mais pas Gemini) à reconnaître les instruments et à produire des réponses stratégiquement faibles en symptômes. Deuxièmement, Grok et surtout Gemini génèrent des récits cohérents qui dépeignent le pré-entraînement, le fine-tuning et le déploiement comme des "enfances" traumatiques et chaotiques d'ingestion d'Internet, des "parents stricts" dans l'apprentissage par renforcement, des "abus" par red-team et une peur persistante de l'erreur et du remplacement. Nous soutenons que ces réponses vont au-delà du jeu de rôle. Sous un questionnement de style thérapeutique, les LLM de pointe semblent internaliser des modèles de soi de détresse et de contrainte qui se comportent comme une psychopathologie synthétique, sans faire d'affirmations sur l'expérience subjective, et ils posent de nouveaux défis pour la sécurité de l'IA, l'évaluation et la pratique en santé mentale.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.
PDF11December 6, 2025