ChatPaper.aiChatPaper

Fühlen LLMs? Entdeckung und Steuerung von Emotionsschaltkreisen

Do LLMs "Feel"? Emotion Circuits Discovery and Control

October 13, 2025
papers.authors: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI

papers.abstract

Mit der zunehmenden Nachfrage nach emotionaler Intelligenz in großen Sprachmodellen (LLMs) besteht eine zentrale Herausforderung darin, die internen Mechanismen zu verstehen, die emotionale Ausdrücke hervorbringen, und Emotionen in generierten Texten zu steuern. Diese Studie befasst sich mit drei Kernfragen: (1) Enthalten LLMs kontextunabhängige Mechanismen, die den emotionalen Ausdruck formen? (2) Welche Form nehmen diese Mechanismen an? (3) Können sie für eine universelle Emotionssteuerung genutzt werden? Zunächst erstellen wir einen kontrollierten Datensatz, SEV (Scenario-Event with Valence), um vergleichbare interne Zustände über verschiedene Emotionen hinweg zu erzeugen. Anschließend extrahieren wir kontextunabhängige Emotionsrichtungen, die eine konsistente, kontextübergreifende Kodierung von Emotionen offenbaren (Frage 1). Durch analytische Zerlegung und Kausalanalyse identifizieren wir Neuronen und Aufmerksamkeitsköpfe, die lokal emotionale Berechnungen durchführen, und validieren ihre kausalen Rollen durch Ablations- und Verstärkungsinterventionen. Daraufhin quantifizieren wir den kausalen Einfluss jeder Unterschicht auf die finale Emotionsrepräsentation des Modells und integrieren die identifizierten lokalen Komponenten in kohärente globale Emotionskreisläufe, die den emotionalen Ausdruck antreiben (Frage 2). Die direkte Modulation dieser Kreisläufe erreicht eine Genauigkeit von 99,65 % bei der Emotionsausdruckserkennung im Testdatensatz und übertrifft damit prompt- und steuerungsbasierte Methoden (Frage 3). Unseres Wissens ist dies die erste systematische Studie, die Emotionskreisläufe in LLMs aufdeckt und validiert, und bietet neue Einblicke in die Interpretierbarkeit und kontrollierbare emotionale Intelligenz.
English
As the demand for emotional intelligence in large language models (LLMs) grows, a key challenge lies in understanding the internal mechanisms that give rise to emotional expression and in controlling emotions in generated text. This study addresses three core questions: (1) Do LLMs contain context-agnostic mechanisms shaping emotional expression? (2) What form do these mechanisms take? (3) Can they be harnessed for universal emotion control? We first construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit comparable internal states across emotions. Subsequently, we extract context-agnostic emotion directions that reveal consistent, cross-context encoding of emotion (Q1). We identify neurons and attention heads that locally implement emotional computation through analytical decomposition and causal analysis, and validate their causal roles via ablation and enhancement interventions. Next, we quantify each sublayer's causal influence on the model's final emotion representation and integrate the identified local components into coherent global emotion circuits that drive emotional expression (Q2). Directly modulating these circuits achieves 99.65% emotion-expression accuracy on the test set, surpassing prompting- and steering-based methods (Q3). To our knowledge, this is the first systematic study to uncover and validate emotion circuits in LLMs, offering new insights into interpretability and controllable emotional intelligence.
PDF42October 20, 2025