SAVOIR: Apprendere il Savoir-Faire Sociale tramite Attribuzione della Ricompura basata su Shapley

Abstract

L'intelligenza sociale, ossia la capacità di destreggiarsi in interazioni interpersonali complesse, rappresenta una sfida fondamentale per gli agenti linguistici. L'addestramento di tali agenti tramite apprendimento per rinforzo richiede di risolvere il problema dell'attribuzione del merito: determinare in che modo singoli enunciati contribuiscono agli esiti di un dialogo a più turni. Gli approcci esistenti impiegano direttamente i modelli linguistici per distribuire le ricompense a livello di episodio, producendo attribuzioni che sono retrospettive e prive di fondamento teorico. Proponiamo SAVOIR (ShApley Value fOr SocIal RL), un nuovo quadro metodologico basato sui principi della teoria dei giochi cooperativi. Il nostro approccio combina due principi complementari: l'utilità attesa sposta la valutazione dall'attribuzione retrospettiva a una valutazione prospettica, catturando il potenziale strategico di un enunciato di abilitare traiettorie future favorevoli; i valori di Shapley garantiscono una distribuzione equa del merito con garanzie assiomatiche di efficienza, simmetria e marginalità. Esperimenti sul benchmark SOTOPIA dimostrano che SAVOIR raggiunge nuove prestazioni all'avanguardia in tutte le configurazioni di valutazione, con il nostro modello da 7B che eguaglia o supera modelli proprietari come GPT-4o e Claude-3.5-Sonnet. È degno di nota che persino i grandi modelli di ragionamento ottengano prestazioni costantemente inferiori, suggerendo che l'intelligenza sociale richieda capacità qualitativamente diverse dal ragionamento analitico.

English

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

SAVOIR: Apprendere il Savoir-Faire Sociale tramite Attribuzione della Ricompura basata su Shapley

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Abstract

Support