ChatPaper.aiChatPaper

Voelen LLM's? Ontdekking en Controle van Emotiecircuits

Do LLMs "Feel"? Emotion Circuits Discovery and Control

October 13, 2025
Auteurs: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI

Samenvatting

Naarmate de vraag naar emotionele intelligentie in grote taalmodellen (LLMs) groeit, ligt een belangrijke uitdaging in het begrijpen van de interne mechanismen die aanleiding geven tot emotionele expressie en in het beheersen van emoties in gegenereerde tekst. Deze studie behandelt drie kernvragen: (1) Bevatten LLMs context-onafhankelijke mechanismen die emotionele expressie vormgeven? (2) Welke vorm nemen deze mechanismen aan? (3) Kunnen ze worden benut voor universele emotiecontrole? We construeren eerst een gecontroleerde dataset, SEV (Scenario-Event met Valentie), om vergelijkbare interne toestanden tussen emoties op te roepen. Vervolgens extraheren we context-onafhankelijke emotierichtingen die een consistente, cross-contextuele codering van emotie onthullen (Q1). We identificeren neuronen en aandachtskoppen die lokaal emotionele berekeningen implementeren door middel van analytische decompositie en causale analyse, en valideren hun causale rollen via ablatie- en versterkingsinterventies. Vervolgens kwantificeren we de causale invloed van elke sublaag op de uiteindelijke emotierepresentatie van het model en integreren we de geïdentificeerde lokale componenten in samenhangende globale emotiecircuits die emotionele expressie sturen (Q2). Directe modulatie van deze circuits bereikt een nauwkeurigheid van 99,65% in emotie-expressie op de testset, wat prompt- en stuurgebaseerde methoden overtreft (Q3). Voor zover wij weten, is dit de eerste systematische studie die emotiecircuits in LLMs blootlegt en valideert, wat nieuwe inzichten biedt in interpreteerbaarheid en beheersbare emotionele intelligentie.
English
As the demand for emotional intelligence in large language models (LLMs) grows, a key challenge lies in understanding the internal mechanisms that give rise to emotional expression and in controlling emotions in generated text. This study addresses three core questions: (1) Do LLMs contain context-agnostic mechanisms shaping emotional expression? (2) What form do these mechanisms take? (3) Can they be harnessed for universal emotion control? We first construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit comparable internal states across emotions. Subsequently, we extract context-agnostic emotion directions that reveal consistent, cross-context encoding of emotion (Q1). We identify neurons and attention heads that locally implement emotional computation through analytical decomposition and causal analysis, and validate their causal roles via ablation and enhancement interventions. Next, we quantify each sublayer's causal influence on the model's final emotion representation and integrate the identified local components into coherent global emotion circuits that drive emotional expression (Q2). Directly modulating these circuits achieves 99.65% emotion-expression accuracy on the test set, surpassing prompting- and steering-based methods (Q3). To our knowledge, this is the first systematic study to uncover and validate emotion circuits in LLMs, offering new insights into interpretability and controllable emotional intelligence.
PDF42October 20, 2025