ChatPaper.aiChatPaper

Sotopia-RL : Conception de récompenses pour l'intelligence sociale

Sotopia-RL: Reward Design for Social Intelligence

August 5, 2025
papers.authors: Haofei Yu, Zhengyang Qi, Yining Zhao, Kolby Nottingham, Keyang Xuan, Bodhisattwa Prasad Majumder, Hao Zhu, Paul Pu Liang, Jiaxuan You
cs.AI

papers.abstract

L'intelligence sociale est devenue une capacité cruciale pour les grands modèles de langage (LLMs), leur permettant de s'engager efficacement dans des tâches sociales du monde réel telles que l'adaptation, la persuasion, la collaboration et la négociation. L'apprentissage par renforcement (RL) est naturellement adapté pour entraîner des agents socialement intelligents, car il permet aux modèles d'apprendre des stratégies sophistiquées directement à travers des interactions sociales. Cependant, les interactions sociales présentent deux caractéristiques clés qui posent des obstacles à l'entraînement par RL : (1) l'observabilité partielle, où les énoncés ont des effets indirects et retardés qui compliquent l'attribution des crédits, et (2) la multi-dimensionnalité, où des comportements tels que l'établissement de relations ou la recherche de connaissances contribuent indirectement à la réalisation des objectifs. Ces caractéristiques rendent inefficace et instable le RL basé sur les processus de décision markoviens (MDP) avec des récompenses unidimensionnelles au niveau de l'épisode. Pour relever ces défis, nous proposons Sotopia-RL, un cadre novateur qui affine les retours bruts au niveau de l'épisode en récompenses multi-dimensionnelles au niveau des énoncés. L'attribution des crédits au niveau des énoncés atténue l'observabilité partielle en attribuant les résultats à des énoncés individuels, tandis que les récompenses multi-dimensionnelles capturent toute la richesse des interactions sociales et réduisent le détournement de récompenses. Les expériences dans Sotopia, un environnement d'apprentissage social ouvert, démontrent que Sotopia-RL atteint des scores de réalisation d'objectifs sociaux de pointe (7,17 sur Sotopia-hard et 8,31 sur Sotopia-full), surpassant significativement les approches existantes. Les études d'ablation confirment la nécessité à la fois de l'attribution des crédits au niveau des énoncés et de la conception de récompenses multi-dimensionnelles pour l'entraînement par RL. Notre implémentation est disponible publiquement à l'adresse : https://github.com/sotopia-lab/sotopia-rl.
English
Social intelligence has become a critical capability for large language models (LLMs), enabling them to engage effectively in real-world social tasks such as accommodation, persuasion, collaboration, and negotiation. Reinforcement learning (RL) is a natural fit for training socially intelligent agents because it allows models to learn sophisticated strategies directly through social interactions. However, social interactions have two key characteristics that set barriers for RL training: (1) partial observability, where utterances have indirect and delayed effects that complicate credit assignment, and (2) multi-dimensionality, where behaviors such as rapport-building or knowledge-seeking contribute indirectly to goal achievement. These characteristics make Markov decision process (MDP)-based RL with single-dimensional episode-level rewards inefficient and unstable. To address these challenges, we propose Sotopia-RL, a novel framework that refines coarse episode-level feedback into utterance-level, multi-dimensional rewards. Utterance-level credit assignment mitigates partial observability by attributing outcomes to individual utterances, while multi-dimensional rewards capture the full richness of social interactions and reduce reward hacking. Experiments in Sotopia, an open-ended social learning environment, demonstrate that Sotopia-RL achieves state-of-the-art social goal completion scores (7.17 on Sotopia-hard and 8.31 on Sotopia-full), significantly outperforming existing approaches. Ablation studies confirm the necessity of both utterance-level credit assignment and multi-dimensional reward design for RL training. Our implementation is publicly available at: https://github.com/sotopia-lab/sotopia-rl.
PDF182August 7, 2025