ChatPaper.aiChatPaper

Treinando Modelos de Linguagem para Dedução Social com Aprendizado por Reforço Multiagente

Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

February 9, 2025
Autores: Bidipta Sarkar, Warren Xia, C. Karen Liu, Dorsa Sadigh
cs.AI

Resumo

Comunicar em linguagem natural é uma ferramenta poderosa em cenários multiagentes, pois permite que agentes independentes compartilhem informações em ambientes parcialmente observáveis e possibilita a coordenação sem treinamento prévio com humanos. No entanto, a maioria dos trabalhos anteriores é limitada, pois ou dependem de treinamento com grandes quantidades de demonstrações humanas ou carecem da capacidade de gerar estratégias de comunicação naturais e úteis. Neste trabalho, treinamos modelos de linguagem para terem discussões produtivas sobre seu ambiente em linguagem natural sem qualquer demonstração humana. Decomponemos o problema de comunicação em escuta e fala. Nossa ideia principal é aproveitar o objetivo do agente para prever informações úteis sobre o mundo como um sinal de recompensa denso que guia a comunicação. Especificamente, melhoramos as habilidades de escuta de um modelo treinando-o para prever informações sobre o ambiente com base em discussões, e simultaneamente melhoramos as habilidades de fala de um modelo com aprendizado por reforço multiagente, recompensando mensagens com base em sua influência sobre outros agentes. Para investigar o papel e a necessidade da comunicação em ambientes sociais complexos, estudamos um jogo de dedução social incorporado baseado em Among Us, onde a questão chave a responder é a identidade de um impostor adversário. Analisamos comportamentos emergentes devido à nossa técnica, como acusar suspeitos e fornecer evidências, e descobrimos que ela possibilita discussões fortes, dobrando as taxas de vitória em comparação com o RL padrão. Disponibilizamos nosso código e modelos em https://socialdeductionllm.github.io/
English
Communicating in natural language is a powerful tool in multi-agent settings, as it enables independent agents to share information in partially observable settings and allows zero-shot coordination with humans. However, most prior works are limited as they either rely on training with large amounts of human demonstrations or lack the ability to generate natural and useful communication strategies. In this work, we train language models to have productive discussions about their environment in natural language without any human demonstrations. We decompose the communication problem into listening and speaking. Our key idea is to leverage the agent's goal to predict useful information about the world as a dense reward signal that guides communication. Specifically, we improve a model's listening skills by training them to predict information about the environment based on discussions, and we simultaneously improve a model's speaking skills with multi-agent reinforcement learning by rewarding messages based on their influence on other agents. To investigate the role and necessity of communication in complex social settings, we study an embodied social deduction game based on Among Us, where the key question to answer is the identity of an adversarial imposter. We analyze emergent behaviors due to our technique, such as accusing suspects and providing evidence, and find that it enables strong discussions, doubling the win rates compared to standard RL. We release our code and models at https://socialdeductionllm.github.io/
PDF383February 11, 2025