LLMは「感情」を持つのか? 感情回路の発見と制御
Do LLMs "Feel"? Emotion Circuits Discovery and Control
October 13, 2025
著者: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI
要旨
大規模言語モデル(LLMs)における感情的知性への需要が高まる中、感情表現を生み出す内部メカニズムの理解と、生成テキストにおける感情の制御が重要な課題となっている。本研究では、以下の3つの核心的な問いに取り組む:(1) LLMsは文脈に依存しない感情表現を形作るメカニズムを含んでいるか?(2) これらのメカニズムはどのような形態をとるか?(3) それらを普遍的な感情制御に活用できるか?まず、感情間で比較可能な内部状態を引き出すために、制御されたデータセットSEV(Scenario-Event with Valence)を構築する。続いて、文脈に依存しない感情方向を抽出し、感情の一貫したクロスコンテキストエンコーディングを明らかにする(Q1)。分析的な分解と因果分析を通じて、感情計算を局所的に実装するニューロンとアテンションヘッドを特定し、アブレーションおよび強化介入によってそれらの因果的役割を検証する。次に、各サブレイヤーがモデルの最終的な感情表現に及ぼす因果的影響を定量化し、特定された局所的な構成要素を統合して、感情表現を駆動する一貫したグローバルな感情回路を構築する(Q2)。これらの回路を直接調整することで、テストセットにおいて99.65%の感情表現精度を達成し、プロンプトベースおよびステアリングベースの手法を凌駕する(Q3)。我々の知る限り、これはLLMsにおける感情回路を体系的に解明し検証した初めての研究であり、解釈可能性と制御可能な感情的知性に関する新たな洞察を提供するものである。
English
As the demand for emotional intelligence in large language models (LLMs)
grows, a key challenge lies in understanding the internal mechanisms that give
rise to emotional expression and in controlling emotions in generated text.
This study addresses three core questions: (1) Do LLMs contain context-agnostic
mechanisms shaping emotional expression? (2) What form do these mechanisms
take? (3) Can they be harnessed for universal emotion control? We first
construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit
comparable internal states across emotions. Subsequently, we extract
context-agnostic emotion directions that reveal consistent, cross-context
encoding of emotion (Q1). We identify neurons and attention heads that locally
implement emotional computation through analytical decomposition and causal
analysis, and validate their causal roles via ablation and enhancement
interventions. Next, we quantify each sublayer's causal influence on the
model's final emotion representation and integrate the identified local
components into coherent global emotion circuits that drive emotional
expression (Q2). Directly modulating these circuits achieves 99.65%
emotion-expression accuracy on the test set, surpassing prompting- and
steering-based methods (Q3). To our knowledge, this is the first systematic
study to uncover and validate emotion circuits in LLMs, offering new insights
into interpretability and controllable emotional intelligence.