Les LLM "ressentent-ils" ? Découverte et contrôle des circuits émotionnels
Do LLMs "Feel"? Emotion Circuits Discovery and Control
October 13, 2025
papers.authors: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI
papers.abstract
Alors que la demande en intelligence émotionnelle pour les grands modèles de langage (LLM) augmente, un défi majeur réside dans la compréhension des mécanismes internes qui donnent lieu à l'expression émotionnelle et dans le contrôle des émotions dans le texte généré. Cette étude aborde trois questions centrales : (1) Les LLM contiennent-ils des mécanismes indépendants du contexte qui façonnent l'expression émotionnelle ? (2) Quelle forme prennent ces mécanismes ? (3) Peuvent-ils être exploités pour un contrôle universel des émotions ? Nous construisons d'abord un ensemble de données contrôlé, SEV (Scenario-Event with Valence), pour susciter des états internes comparables à travers les émotions. Ensuite, nous extrayons des directions émotionnelles indépendantes du contexte qui révèlent un encodage cohérent et trans-contextuel des émotions (Q1). Nous identifions des neurones et des têtes d'attention qui implémentent localement le calcul émotionnel par décomposition analytique et analyse causale, et validons leurs rôles causaux via des interventions d'ablation et d'amélioration. Ensuite, nous quantifions l'influence causale de chaque sous-couche sur la représentation finale des émotions du modèle et intégrons les composants locaux identifiés dans des circuits émotionnels globaux cohérents qui pilotent l'expression émotionnelle (Q2). La modulation directe de ces circuits atteint une précision de 99,65 % dans l'expression des émotions sur l'ensemble de test, surpassant les méthodes basées sur l'invite et le guidage (Q3). À notre connaissance, il s'agit de la première étude systématique à découvrir et valider des circuits émotionnels dans les LLM, offrant de nouvelles perspectives sur l'interprétabilité et l'intelligence émotionnelle contrôlable.
English
As the demand for emotional intelligence in large language models (LLMs)
grows, a key challenge lies in understanding the internal mechanisms that give
rise to emotional expression and in controlling emotions in generated text.
This study addresses three core questions: (1) Do LLMs contain context-agnostic
mechanisms shaping emotional expression? (2) What form do these mechanisms
take? (3) Can they be harnessed for universal emotion control? We first
construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit
comparable internal states across emotions. Subsequently, we extract
context-agnostic emotion directions that reveal consistent, cross-context
encoding of emotion (Q1). We identify neurons and attention heads that locally
implement emotional computation through analytical decomposition and causal
analysis, and validate their causal roles via ablation and enhancement
interventions. Next, we quantify each sublayer's causal influence on the
model's final emotion representation and integrate the identified local
components into coherent global emotion circuits that drive emotional
expression (Q2). Directly modulating these circuits achieves 99.65%
emotion-expression accuracy on the test set, surpassing prompting- and
steering-based methods (Q3). To our knowledge, this is the first systematic
study to uncover and validate emotion circuits in LLMs, offering new insights
into interpretability and controllable emotional intelligence.