SAVOIR: Erlernen sozialen Savoir-faires durch Shapley-basierte Belohnungszuordnung

Zusammenfassung

Soziale Intelligenz, die Fähigkeit, komplexe zwischenmenschliche Interaktionen zu bewältigen, stellt eine grundlegende Herausforderung für Sprachagenten dar. Das Training solcher Agenten mittels Verstärkungslernen erfordert die Lösung des Credit-Assignment-Problems: die Bestimmung, wie einzelne Äußerungen zu mehrschrittigen Dialogergebnissen beitragen. Bisherige Ansätze setzen Sprachmodelle direkt ein, um episodenbasierte Belohnungen zu verteilen, was zu retrospektiven und theoretisch unbegründeten Zuschreibungen führt. Wir schlagen SAVOIR (ShApley Value fOr SocIal RL) vor, einen neuartigen, prinzipienbasierten Rahmen, der in der kooperativen Spieltheorie verankert ist. Unser Ansatz kombiniert zwei komplementäre Prinzipien: Erwarteter Nutzen verlagert die Bewertung von retrospektiver Zuschreibung auf prospektive Wertermittlung und erfasst das strategische Potenzial einer Äußerung, günstige zukünftige Handlungsverläufe zu ermöglichen; Shapley-Werte gewährleisten eine faire Verteilung der Belohnung mit axiomatischen Garantien für Effizienz, Symmetrie und Marginalität. Experimente mit dem SOTOPIA-Benchmark zeigen, dass SAVOIR in allen Evaluierungsszenarien neue state-of-the-art Leistungen erzielt, wobei unser 7B-Modell proprietäre Modelle wie GPT-4o und Claude-3.5-Sonnet erreicht oder übertrifft. Bemerkenswerterweise schneiden selbst große Reasoning-Modelle durchgängig schlechter ab, was darauf hindeutet, dass soziale Intelligenz qualitativ andere Fähigkeiten erfordert als analytisches Denken.

English

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

SAVOIR: Erlernen sozialen Savoir-faires durch Shapley-basierte Belohnungszuordnung

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Zusammenfassung

Support