SAVOIR: Leren van Sociale Savoir-Faire via Shapley-gebaseerde Beloningsattributie

Samenvatting

Sociaal intelligentie, het vermogen om complexe interpersoonlijke interacties te navigeren, vormt een fundamentele uitdaging voor taalagentschappen. Het trainen van dergelijke agentschappen via reinforcement learning vereist het oplossen van het credit assignment-probleem: het bepalen hoe individuele uitingen bijdragen aan uitkomsten in meerdaagse dialogen. Bestaande benaderingen gebruiken taalmodelen direct om beloningen op episodeniveau te verdelen, wat resulteert in attributies die retrospectief zijn en geen theoretische onderbouwing hebben. Wij stellen SAVOIR (ShApley Value fOr SocIal RL) voor, een nieuw principieel kader gebaseerd op de coöperatieve speltheorie. Onze aanpak combineert twee complementaire principes: verwacht nut verschuift de evaluatie van retrospectieve attributie naar prospectieve waardering, waarbij het strategische potentieel van een uiting wordt vastgelegd om gunstige toekomstige trajecten mogelijk te maken; Shapley-waarden zorgen voor een eerlijke verdeling van de credits met axiomatische garanties voor efficiëntie, symmetrie en marginaliteit. Experimenten op de SOTOPIA-benchmark tonen aan dat SAVOIR een nieuwe state-of-the-art prestatie bereikt in alle evaluatie-instellingen, waarbij ons 7B-model evenaart of overtreft propriëtaire modellen zoals GPT-4o en Claude-3.5-Sonnet. Opmerkelijk is dat zelfs grote redeneermodellen consistent ondermaats presteren, wat suggereert dat sociale intelligentie kwalitatief andere capaciteiten vereist dan analytisch redeneren.

English

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

SAVOIR: Leren van Sociale Savoir-Faire via Shapley-gebaseerde Beloningsattributie

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Samenvatting

Support