SAVOIR: Aprendizaje del Savoir-Faire Social mediante Atribución de Recompensas Basada en Shapley

Resumen

La inteligencia social, la capacidad de navegar interacciones interpersonales complejas, representa un desafío fundamental para los agentes de lenguaje. Entrenar dichos agentes mediante aprendizaje por refuerzo requiere resolver el problema de asignación de crédito: determinar cómo contribuyen los enunciados individuales a los resultados de diálogos de múltiples turnos. Los enfoques existentes emplean directamente modelos de lenguaje para distribuir recompensas a nivel de episodio, produciendo atribuciones que son retrospectivas y carecen de fundamentación teórica. Proponemos SAVOIR (ShApley Value fOr SocIal RL), un novedoso marco de principios fundamentado en la teoría de juegos cooperativos. Nuestro enfoque combina dos principios complementarios: el cambio de utilidad esperada evalúa desde la atribución retrospectiva hacia la valoración prospectiva, capturando el potencial estratégico de un enunciado para permitir trayectorias futuras favorables; los valores de Shapley garantizan una distribución justa del crédito con garantías axiomáticas de eficiencia, simetría y marginalidad. Los experimentos en el benchmark SOTOPIA demuestran que SAVOIR alcanza un nuevo rendimiento de vanguardia en todos los entornos de evaluación, con nuestro modelo de 7B igualando o superando a modelos propietarios como GPT-4o y Claude-3.5-Sonnet. Notablemente, incluso los grandes modelos de razonamiento tienen un rendimiento consistentemente inferior, lo que sugiere que la inteligencia social requiere capacidades cualitativamente diferentes al razonamiento analítico.

English

Social intelligence, the ability to navigate complex interpersonal interactions, presents a fundamental challenge for language agents. Training such agents via reinforcement learning requires solving the credit assignment problem: determining how individual utterances contribute to multi-turn dialogue outcomes. Existing approaches directly employ language models to distribute episode-level rewards, yielding attributions that are retrospective and lack theoretical grounding. We propose SAVOIR (ShApley Value fOr SocIal RL), a novel principled framework grounded in cooperative game theory. Our approach combines two complementary principles: expected utility shifts evaluation from retrospective attribution to prospective valuation, capturing an utterance's strategic potential for enabling favorable future trajectories; Shapley values ensure fair credit distribution with axiomatic guarantees of efficiency, symmetry, and marginality. Experiments on the SOTOPIA benchmark demonstrate that SAVOIR achieves new state-of-the-art performance across all evaluation settings, with our 7B model matching or exceeding proprietary models including GPT-4o and Claude-3.5-Sonnet. Notably, even large reasoning models consistently underperform, suggesting social intelligence requires qualitatively different capabilities than analytical reasoning.

SAVOIR: Aprendizaje del Savoir-Faire Social mediante Atribución de Recompensas Basada en Shapley

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Resumen

Support