I LLM "Provano Emozioni"? Scoperta e Controllo dei Circuiti Emotivi
Do LLMs "Feel"? Emotion Circuits Discovery and Control
October 13, 2025
Autori: Chenxi Wang, Yixuan Zhang, Ruiji Yu, Yufei Zheng, Lang Gao, Zirui Song, Zixiang Xu, Gus Xia, Huishuai Zhang, Dongyan Zhao, Xiuying Chen
cs.AI
Abstract
Con l'aumentare della domanda di intelligenza emotiva nei modelli linguistici di grandi dimensioni (LLM), una delle principali sfide risiede nella comprensione dei meccanismi interni che danno origine all'espressione emotiva e nel controllo delle emozioni nei testi generati. Questo studio affronta tre domande fondamentali: (1) I LLM contengono meccanismi indipendenti dal contesto che modellano l'espressione emotiva? (2) Quale forma assumono questi meccanismi? (3) Possono essere sfruttati per un controllo universale delle emozioni? In primo luogo, costruiamo un dataset controllato, SEV (Scenario-Evento con Valenza), per elicitare stati interni comparabili tra diverse emozioni. Successivamente, estraiamo direzioni emotive indipendenti dal contesto che rivelano una codifica coerente e trasversale delle emozioni (Q1). Identifichiamo neuroni e teste di attenzione che implementano localmente il calcolo emotivo attraverso la scomposizione analitica e l'analisi causale, e validiamo i loro ruoli causali tramite interventi di ablazione e potenziamento. Successivamente, quantifichiamo l'influenza causale di ciascun sottolivello sulla rappresentazione finale delle emozioni del modello e integriamo i componenti locali identificati in circuiti emotivi globali coerenti che guidano l'espressione emotiva (Q2). La modulazione diretta di questi circuiti raggiunge un'accuratezza del 99,65% nell'espressione emotiva sul set di test, superando i metodi basati su prompt e steering (Q3). Per quanto ne sappiamo, questo è il primo studio sistematico a scoprire e validare circuiti emotivi nei LLM, offrendo nuove intuizioni sull'interpretabilità e sull'intelligenza emotiva controllabile.
English
As the demand for emotional intelligence in large language models (LLMs)
grows, a key challenge lies in understanding the internal mechanisms that give
rise to emotional expression and in controlling emotions in generated text.
This study addresses three core questions: (1) Do LLMs contain context-agnostic
mechanisms shaping emotional expression? (2) What form do these mechanisms
take? (3) Can they be harnessed for universal emotion control? We first
construct a controlled dataset, SEV (Scenario-Event with Valence), to elicit
comparable internal states across emotions. Subsequently, we extract
context-agnostic emotion directions that reveal consistent, cross-context
encoding of emotion (Q1). We identify neurons and attention heads that locally
implement emotional computation through analytical decomposition and causal
analysis, and validate their causal roles via ablation and enhancement
interventions. Next, we quantify each sublayer's causal influence on the
model's final emotion representation and integrate the identified local
components into coherent global emotion circuits that drive emotional
expression (Q2). Directly modulating these circuits achieves 99.65%
emotion-expression accuracy on the test set, surpassing prompting- and
steering-based methods (Q3). To our knowledge, this is the first systematic
study to uncover and validate emotion circuits in LLMs, offering new insights
into interpretability and controllable emotional intelligence.