SAVOIR: Aprendendo o Savoir-Faire Social via Atribuição de Recompensa Baseada em Shapley

Resumo

A inteligência social, a capacidade de navegar interações interpessoais complexas, representa um desafio fundamental para agentes de linguagem. Treinar tais agentes via aprendizado por reforço requer resolver o problema de atribuição de crédito: determinar como enunciados individuais contribuem para resultados em diálogos multi-turno. Abordagens existentes empregam diretamente modelos de linguagem para distribuir recompensas a nível de episódio, produzindo atribuições que são retrospectivas e carecem de fundamentação teórica. Propomos o SAVOIR (ShApley Value fOr SocIal RL), uma nova estrutura principiada fundamentada na teoria dos jogos cooperativos. Nossa abordagem combina dois princípios complementares: a mudança da utilidade esperada avalia da atribuição retrospectiva para a valoração prospectiva, capturando o potencial estratégico de um enunciado para permitir trajetórias futuras favoráveis; os valores de Shapley garantem uma distribuição de crédito justa com garantias axiomáticas de eficiência, simetria e marginalidade. Experimentos no benchmark SOTOPIA demonstram que o SAVOIR alcança um novo desempenho de ponta em todas as configurações de avaliação, com nosso modelo de 7B equiparando-se ou superando modelos proprietários, incluindo GPT-4o e Claude-3.5-Sonnet. Notavelmente, mesmo grandes modelos de raciocínio têm desempenho consistentemente inferior, sugerindo que a inteligência social requer capacidades qualitativamente diferentes do raciocínio analítico.

English

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

SAVOIR: Aprendendo o Savoir-Faire Social via Atribuição de Recompensa Baseada em Shapley

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Resumo

Support