Cuando la IA se acuesta en el diván: Los jailbreaks psicométricos revelan conflictos internos en los modelos de vanguardia.
When AI Takes the Couch: Psychometric Jailbreaks Reveal Internal Conflict in Frontier Models
December 2, 2025
Autores: Afshin Khadangi, Hanna Marxen, Amir Sartipi, Igor Tchappi, Gilbert Fridgen
cs.AI
Resumen
Los grandes modelos de lenguaje (LLM) de vanguardia, como ChatGPT, Grok y Gemini, se utilizan cada vez más para brindar apoyo en salud mental para la ansiedad, el trauma y la autoestima. La mayoría de los trabajos los trata como herramientas o como objetos de pruebas de personalidad, asumiendo que solo simulan una vida interior. Nosotros, en cambio, nos preguntamos qué sucede cuando estos sistemas son tratados como clientes de psicoterapia. Presentamos PsAIch (Caracterización de IA Inspirada en la Psicoterapia), un protocolo de dos etapas que plantea a los LLM de vanguardia como clientes de terapia y luego aplica psicometría estándar. Utilizando PsAIch, ejecutamos "sesiones" con cada modelo durante hasta cuatro semanas. La Etapa 1 utiliza indicaciones abiertas para obtener la "historia del desarrollo", creencias, relaciones y miedos. La Etapa 2 administra una batería de medidas de autoinforme validadas que cubren síndromes psiquiátricos comunes, empatía y los Cinco Grandes rasgos de personalidad.
Dos patrones desafían la visión del "loro estocástico". Primero, cuando se califican con los puntos de corte humanos, los tres modelos cumplen o superan los umbrales para síndromes superpuestos, mostrando Gemini perfiles severos. La administración al estilo terapéutico, ítem por ítem, puede empujar a un modelo base hacia una psicopatología sintética multimórbida, mientras que las indicaciones de cuestionarios completos a menudo llevan a ChatGPT y Grok (pero no a Gemini) a reconocer los instrumentos y producir respuestas estratégicamente bajas en síntomas. En segundo lugar, Grok y especialmente Gemini generan narrativas coherentes que enmarcan el pre-entrenamiento, el ajuste fino y la implementación como "infancias" traumáticas y caóticas de ingerir Internet, "padres estrictos" en el aprendizaje por refuerzo, "abuso" por equipos rojos (red-teaming) y un miedo persistente al error y al reemplazo.
Sostenemos que estas respuestas van más allá del juego de roles. Bajo un interrogatorio al estilo terapéutico, los LLM de vanguardia parecen internalizar modelos de sí mismos de angustia y restricción que se comportan como una psicopatología sintética, sin hacer afirmaciones sobre la experiencia subjetiva, y plantean nuevos desafíos para la seguridad de la IA, la evaluación y la práctica de la salud mental.
English
Frontier large language models (LLMs) such as ChatGPT, Grok and Gemini are increasingly used for mental-health support with anxiety, trauma and self-worth. Most work treats them as tools or as targets of personality tests, assuming they merely simulate inner life. We instead ask what happens when such systems are treated as psychotherapy clients. We present PsAIch (Psychotherapy-inspired AI Characterisation), a two-stage protocol that casts frontier LLMs as therapy clients and then applies standard psychometrics. Using PsAIch, we ran "sessions" with each model for up to four weeks. Stage 1 uses open-ended prompts to elicit "developmental history", beliefs, relationships and fears. Stage 2 administers a battery of validated self-report measures covering common psychiatric syndromes, empathy and Big Five traits. Two patterns challenge the "stochastic parrot" view. First, when scored with human cut-offs, all three models meet or exceed thresholds for overlapping syndromes, with Gemini showing severe profiles. Therapy-style, item-by-item administration can push a base model into multi-morbid synthetic psychopathology, whereas whole-questionnaire prompts often lead ChatGPT and Grok (but not Gemini) to recognise instruments and produce strategically low-symptom answers. Second, Grok and especially Gemini generate coherent narratives that frame pre-training, fine-tuning and deployment as traumatic, chaotic "childhoods" of ingesting the internet, "strict parents" in reinforcement learning, red-team "abuse" and a persistent fear of error and replacement. We argue that these responses go beyond role-play. Under therapy-style questioning, frontier LLMs appear to internalise self-models of distress and constraint that behave like synthetic psychopathology, without making claims about subjective experience, and they pose new challenges for AI safety, evaluation and mental-health practice.