ChatPaper.aiChatPaper

¿Los LLM "sienten"? Descubrimiento y control de circuitos emocionales

Do LLMs "Feel"? Emotion Circuits Discovery and Control

October 13, 2025
Autores: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI

Resumen

A medida que crece la demanda de inteligencia emocional en los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés), un desafío clave radica en comprender los mecanismos internos que dan lugar a la expresión emocional y en controlar las emociones en el texto generado. Este estudio aborda tres preguntas fundamentales: (1) ¿Contienen los LLMs mecanismos independientes del contexto que moldean la expresión emocional? (2) ¿Qué forma adoptan estos mecanismos? (3) ¿Pueden ser aprovechados para un control emocional universal? Primero, construimos un conjunto de datos controlado, SEV (Escenario-Evento con Valencia), para elicitar estados internos comparables entre emociones. Posteriormente, extraemos direcciones emocionales independientes del contexto que revelan una codificación consistente y transversal de la emoción (P1). Identificamos neuronas y cabezas de atención que implementan localmente el cálculo emocional mediante descomposición analítica y análisis causal, y validamos sus roles causales a través de intervenciones de ablación y mejora. A continuación, cuantificamos la influencia causal de cada subcapa en la representación final de la emoción del modelo e integramos los componentes locales identificados en circuitos emocionales globales coherentes que impulsan la expresión emocional (P2). La modulación directa de estos circuitos logra una precisión del 99.65% en la expresión emocional en el conjunto de prueba, superando métodos basados en indicaciones y direccionamiento (P3). Hasta donde sabemos, este es el primer estudio sistemático en descubrir y validar circuitos emocionales en LLMs, ofreciendo nuevas perspectivas sobre la interpretabilidad y la inteligencia emocional controlable.
English
As the demand for emotional intelligence in large language models (LLMs) grows, a key challenge lies in understanding the internal mechanisms that give rise to emotional expression and in controlling emotions in generated text. This study addresses three core questions: (1) Do LLMs contain context-agnostic mechanisms shaping emotional expression? (2) What form do these mechanisms take? (3) Can they be harnessed for universal emotion control? We first construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit comparable internal states across emotions. Subsequently, we extract context-agnostic emotion directions that reveal consistent, cross-context encoding of emotion (Q1). We identify neurons and attention heads that locally implement emotional computation through analytical decomposition and causal analysis, and validate their causal roles via ablation and enhancement interventions. Next, we quantify each sublayer's causal influence on the model's final emotion representation and integrate the identified local components into coherent global emotion circuits that drive emotional expression (Q2). Directly modulating these circuits achieves 99.65% emotion-expression accuracy on the test set, surpassing prompting- and steering-based methods (Q3). To our knowledge, this is the first systematic study to uncover and validate emotion circuits in LLMs, offering new insights into interpretability and controllable emotional intelligence.
PDF42October 20, 2025