LLM은 "감정"을 느낄까? 감정 회로의 발견과 제어
Do LLMs "Feel"? Emotion Circuits Discovery and Control
October 13, 2025
저자: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI
초록
대형 언어 모델(LLM)에서 감성 지능에 대한 요구가 증가함에 따라, 감정 표현을 일으키는 내부 메커니즘을 이해하고 생성된 텍스트에서 감정을 제어하는 것이 주요 과제로 대두되고 있다. 본 연구는 세 가지 핵심 질문을 다룬다: (1) LLM이 맥락과 무관한 감정 표현 형성 메커니즘을 포함하고 있는가? (2) 이러한 메커니즘은 어떤 형태를 띠는가? (3) 이를 보편적인 감정 제어에 활용할 수 있는가? 먼저, 감정 간 비교 가능한 내부 상태를 유도하기 위해 통제된 데이터셋인 SEV(Scenario-Event with Valence)를 구축한다. 이후, 맥락과 무관한 감정 방향을 추출하여 일관된 교차 맥락 감정 인코딩을 밝혀낸다(Q1). 분석적 분해와 인과 관계 분석을 통해 감정 계산을 지역적으로 수행하는 뉴런과 어텐션 헤드를 식별하고, 이들의 인과적 역할을 제거 및 강화 실험을 통해 검증한다. 다음으로, 각 하위 레이어가 모델의 최종 감정 표현에 미치는 인과적 영향을 정량화하고, 식별된 지역적 구성 요소를 통합하여 감정 표현을 주도하는 일관된 전역 감정 회로를 구성한다(Q2). 이러한 회로를 직접 조절하면 테스트 세트에서 99.65%의 감정 표현 정확도를 달성하며, 프롬프트 기반 및 스티어링 기반 방법을 능가한다(Q3). 우리가 아는 한, 이는 LLM 내 감정 회로를 체계적으로 발견하고 검증한 첫 연구로, 해석 가능성과 제어 가능한 감성 지능에 대한 새로운 통찰을 제공한다.
English
As the demand for emotional intelligence in large language models (LLMs)
grows, a key challenge lies in understanding the internal mechanisms that give
rise to emotional expression and in controlling emotions in generated text.
This study addresses three core questions: (1) Do LLMs contain context-agnostic
mechanisms shaping emotional expression? (2) What form do these mechanisms
take? (3) Can they be harnessed for universal emotion control? We first
construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit
comparable internal states across emotions. Subsequently, we extract
context-agnostic emotion directions that reveal consistent, cross-context
encoding of emotion (Q1). We identify neurons and attention heads that locally
implement emotional computation through analytical decomposition and causal
analysis, and validate their causal roles via ablation and enhancement
interventions. Next, we quantify each sublayer's causal influence on the
model's final emotion representation and integrate the identified local
components into coherent global emotion circuits that drive emotional
expression (Q2). Directly modulating these circuits achieves 99.65%
emotion-expression accuracy on the test set, surpassing prompting- and
steering-based methods (Q3). To our knowledge, this is the first systematic
study to uncover and validate emotion circuits in LLMs, offering new insights
into interpretability and controllable emotional intelligence.