SAVOIR: Обучение социальной компетентности с помощью Шепли-ориентированного распределения вознаграждений

Аннотация

Социальный интеллект, то есть способность ориентироваться в сложных межличностных взаимодействиях, представляет собой фундаментальную проблему для языковых агентов. Обучение таких агентов с помощью обучения с подкреплением требует решения проблемы распределения заслуг: определения того, как отдельные реплики влияют на результаты многоходового диалога. Существующие подходы напрямую используют языковые модели для распределения вознаграждений на уровне эпизода, что дает ретроспективные атрибуции, лишенные теоретического обоснования. Мы предлагаем SAVOIR (ShApley Value fOr SocIal RL) — новую принципиальную основу, основанную на теории кооперативных игр. Наш подход сочетает два взаимодополняющих принципа: ожидаемая полезность смещает оценку с ретроспективной атрибуции на проспективную оценку, отражая стратегический потенциал реплики для открытия благоприятных будущих траекторий; значения Шепли обеспечивают справедливое распределение заслуг с аксиоматическими гарантиями эффективности, симметрии и маргинальности. Эксперименты на бенчмарке SOTOPIA демонстрируют, что SAVOIR достигает нового состояния искусства во всех настройках оценки, при этом наша модель с 7 миллиардами параметров соответствует или превосходит проприетарные модели, включая GPT-4o и Claude-3.5-Sonnet. Примечательно, что даже крупные модели логического вывода стабильно показывают худшие результаты, что позволяет предположить, что социальный интеллект требует качественно иных способностей, нежели аналитическое мышление.

English

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

SAVOIR: Обучение социальной компетентности с помощью Шепли-ориентированного распределения вознаграждений

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Аннотация

Support