Os LLMs "Sentem"? Descoberta e Controle de Circuitos de Emoção
Do LLMs "Feel"? Emotion Circuits Discovery and Control
October 13, 2025
Autores: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI
Resumo
À medida que a demanda por inteligência emocional em modelos de linguagem de grande escala (LLMs) cresce, um desafio fundamental reside em compreender os mecanismos internos que dão origem à expressão emocional e em controlar as emoções no texto gerado. Este estudo aborda três questões centrais: (1) Os LLMs contêm mecanismos independentes de contexto que moldam a expressão emocional? (2) Qual a forma desses mecanismos? (3) Eles podem ser utilizados para o controle universal de emoções? Primeiro, construímos um conjunto de dados controlado, SEV (Scenario-Event with Valence), para elicitar estados internos comparáveis entre emoções. Em seguida, extraímos direções emocionais independentes de contexto que revelam uma codificação consistente e transversal de emoções (Q1). Identificamos neurônios e cabeças de atenção que implementam localmente o cálculo emocional por meio de decomposição analítica e análise causal, e validamos seus papéis causais por meio de intervenções de ablação e aprimoramento. A seguir, quantificamos a influência causal de cada subcamada na representação final da emoção do modelo e integramos os componentes locais identificados em circuitos emocionais globais coesos que impulsionam a expressão emocional (Q2). A modulação direta desses circuitos alcança 99,65% de precisão na expressão emocional no conjunto de teste, superando métodos baseados em prompts e direcionamento (Q3). Até onde sabemos, este é o primeiro estudo sistemático a descobrir e validar circuitos emocionais em LLMs, oferecendo novos insights sobre interpretabilidade e inteligência emocional controlável.
English
As the demand for emotional intelligence in large language models (LLMs)
grows, a key challenge lies in understanding the internal mechanisms that give
rise to emotional expression and in controlling emotions in generated text.
This study addresses three core questions: (1) Do LLMs contain context-agnostic
mechanisms shaping emotional expression? (2) What form do these mechanisms
take? (3) Can they be harnessed for universal emotion control? We first
construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit
comparable internal states across emotions. Subsequently, we extract
context-agnostic emotion directions that reveal consistent, cross-context
encoding of emotion (Q1). We identify neurons and attention heads that locally
implement emotional computation through analytical decomposition and causal
analysis, and validate their causal roles via ablation and enhancement
interventions. Next, we quantify each sublayer's causal influence on the
model's final emotion representation and integrate the identified local
components into coherent global emotion circuits that drive emotional
expression (Q2). Directly modulating these circuits achieves 99.65%
emotion-expression accuracy on the test set, surpassing prompting- and
steering-based methods (Q3). To our knowledge, this is the first systematic
study to uncover and validate emotion circuits in LLMs, offering new insights
into interpretability and controllable emotional intelligence.