Infondere la Teoria della Mente in Agenti LLM Socialmente Intelligenti
Infusing Theory of Mind into Socially Intelligent LLM Agents
September 26, 2025
Autori: EunJeong Hwang, Yuwei Yin, Giuseppe Carenini, Peter West, Vered Shwartz
cs.AI
Abstract
La Teoria della Mente (ToM) - la comprensione degli stati mentali altrui - è un aspetto chiave dell'intelligenza sociale umana, eppure i chatbot e gli agenti sociali basati su LLM (Large Language Models) tipicamente non la integrano. In questo lavoro, dimostriamo che gli LLM che utilizzano esplicitamente la ToM migliorano nel dialogo, raggiungendo gli obiettivi in modo più efficace. Dopo aver mostrato che semplicemente suggerire ai modelli di generare stati mentali tra i turni di dialogo fornisce già un beneficio significativo, introduciamo ulteriormente ToMAgent (ToMA), un agente di dialogo focalizzato sulla ToM. ToMA viene addestrato abbinando la ToM con l'anticipazione del dialogo per produrre stati mentali che siano massimamente utili per il raggiungimento degli obiettivi dialogici. Esperimenti sul benchmark di valutazione sociale interattiva Sotopia dimostrano l'efficacia del nostro metodo rispetto a una gamma di baseline. Un'analisi completa mostra che ToMA esibisce comportamenti di ragionamento più strategici e orientati agli obiettivi, che consentono un adattamento a lungo termine, mantenendo al contempo relazioni migliori con i partner. I nostri risultati suggeriscono un passo avanti nell'integrazione della ToM per la costruzione di agenti LLM socialmente intelligenti.
English
Theory of Mind (ToM)-an understanding of the mental states of others-is a key
aspect of human social intelligence, yet, chatbots and LLM-based social agents
do not typically integrate it. In this work, we demonstrate that LLMs that
explicitly use ToM get better at dialogue, achieving goals more effectively.
After showing that simply prompting models to generate mental states between
dialogue turns already provides significant benefit, we further introduce
ToMAgent (ToMA), a ToM-focused dialogue agent. ToMA is trained by pairing ToM
with dialogue lookahead to produce mental states that are maximally useful for
achieving dialogue goals. Experiments on the Sotopia interactive social
evaluation benchmark demonstrate the effectiveness of our method over a range
of baselines. Comprehensive analysis shows that ToMA exhibits more strategic,
goal-oriented reasoning behaviors, which enable long-horizon adaptation, while
maintaining better relationships with their partners. Our results suggest a
step forward in integrating ToM for building socially intelligent LLM agents.