SAVOIR: Apprentissage du Savoir-Vivre Social via l'Attribution de Récompenses Basée sur la Valeur de Shapley

Résumé

L'intelligence sociale, qui désigne la capacité à naviguer dans des interactions interpersonnelles complexes, constitue un défi fondamental pour les agents linguistiques. Former de tels agents par apprentissage par renforcement nécessite de résoudre le problème de l'attribution de crédit : déterminer comment des énoncés individuels contribuent aux résultats d'un dialogue multi-tours. Les approches existantes utilisent directement des modèles de langage pour distribuer les récompenses au niveau de l'épisode, produisant des attributions rétrospectives et dépourvues de fondement théorique. Nous proposons SAVOIR (ShApley Value fOr SocIal RL), un nouveau cadre théorique novateur ancré dans la théorie des jeux coopératifs. Notre approche combine deux principes complémentaires : l'utilité espérée fait passer l'évaluation de l'attribution rétrospective à l'évaluation prospective, capturant le potentiel stratégique d'un énoncé à permettre des trajectoires futures favorables ; les valeurs de Shapley assurent une distribution équitable du crédit avec des garanties axiomatiques d'efficacité, de symétrie et de marginalité. Les expériences sur le benchmark SOTOPIA démontrent que SAVOIR atteint de nouvelles performances de pointe dans tous les contextes d'évaluation, notre modèle de 7 milliards de paramètres égalant ou dépassant les modèles propriétaires, y compris GPT-4o et Claude-3.5-Sonnet. Il est à noter que même les grands modèles de raisonnement sont systématiquement moins performants, suggérant que l'intelligence sociale requiert des capacités qualitativement différentes du raisonnement analytique.

English

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

SAVOIR: Apprentissage du Savoir-Vivre Social via l'Attribution de Récompenses Basée sur la Valeur de Shapley

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Résumé

Support