ChatPaper.aiChatPaper

Чувствуют ли LLM? Обнаружение и управление эмоциональными цепями

Do LLMs "Feel"? Emotion Circuits Discovery and Control

October 13, 2025
Авторы: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI

Аннотация

По мере роста спроса на эмоциональный интеллект в крупных языковых моделях (LLM) ключевой задачей становится понимание внутренних механизмов, лежащих в основе эмоционального выражения, и управление эмоциями в генерируемом тексте. Данное исследование затрагивает три основных вопроса: (1) Содержат ли LLM контекстно-независимые механизмы, формирующие эмоциональное выражение? (2) Какую форму принимают эти механизмы? (3) Можно ли их использовать для универсального управления эмоциями? Сначала мы создаем контролируемый набор данных SEV (Scenario-Event with Valence), чтобы вызвать сопоставимые внутренние состояния для различных эмоций. Затем мы извлекаем контекстно-независимые направления эмоций, которые демонстрируют согласованное кодирование эмоций в различных контекстах (Q1). С помощью аналитического разложения и причинно-следственного анализа мы идентифицируем нейроны и головы внимания, которые локально реализуют эмоциональные вычисления, и подтверждаем их причинную роль с помощью абляции и усиливающих вмешательств. Далее мы количественно оцениваем причинное влияние каждого подслоя на финальное представление эмоций в модели и интегрируем выявленные локальные компоненты в согласованные глобальные эмоциональные цепи, которые управляют эмоциональным выражением (Q2). Прямая модуляция этих цепей достигает точности выражения эмоций в 99,65% на тестовом наборе, превосходя методы, основанные на подсказках и управлении (Q3). Насколько нам известно, это первое систематическое исследование, которое раскрывает и подтверждает эмоциональные цепи в LLM, предлагая новые подходы к интерпретируемости и управляемому эмоциональному интеллекту.
English
As the demand for emotional intelligence in large language models (LLMs) grows, a key challenge lies in understanding the internal mechanisms that give rise to emotional expression and in controlling emotions in generated text. This study addresses three core questions: (1) Do LLMs contain context-agnostic mechanisms shaping emotional expression? (2) What form do these mechanisms take? (3) Can they be harnessed for universal emotion control? We first construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit comparable internal states across emotions. Subsequently, we extract context-agnostic emotion directions that reveal consistent, cross-context encoding of emotion (Q1). We identify neurons and attention heads that locally implement emotional computation through analytical decomposition and causal analysis, and validate their causal roles via ablation and enhancement interventions. Next, we quantify each sublayer's causal influence on the model's final emotion representation and integrate the identified local components into coherent global emotion circuits that drive emotional expression (Q2). Directly modulating these circuits achieves 99.65% emotion-expression accuracy on the test set, surpassing prompting- and steering-based methods (Q3). To our knowledge, this is the first systematic study to uncover and validate emotion circuits in LLMs, offering new insights into interpretability and controllable emotional intelligence.
PDF42October 20, 2025