ChatPaper.aiChatPaper

Training van Taalmodellen voor Sociale Deductie met Multi-Agent Versterkend Leren

Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

February 9, 2025
Auteurs: Bidipta Sarkar, Warren Xia, C. Karen Liu, Dorsa Sadigh
cs.AI

Samenvatting

Communiceren in natuurlijke taal is een krachtig instrument in multi-agent omgevingen, omdat het onafhankelijke agenten in staat stelt informatie te delen in gedeeltelijk waarneembare omgevingen en coördinatie zonder voorafgaande instructie met mensen mogelijk maakt. De meeste eerdere werken zijn echter beperkt omdat ze ofwel afhankelijk zijn van training met grote hoeveelheden menselijke demonstraties of het vermogen missen om natuurlijke en nuttige communicatiestrategieën te genereren. In dit werk trainen we taalmodellen om productieve discussies te voeren over hun omgeving in natuurlijke taal zonder enige menselijke demonstraties. We ontleden het communicatieprobleem in luisteren en spreken. Ons belangrijkste idee is om het doel van de agent te benutten om nuttige informatie over de wereld te voorspellen als een dichte beloningssignaal dat de communicatie stuurt. Specifiek verbeteren we de luistervaardigheden van een model door ze te trainen om informatie over de omgeving te voorspellen op basis van discussies, en we verbeteren tegelijkertijd de spreekvaardigheid van een model met multi-agent versterkend leren door berichten te belonen op basis van hun invloed op andere agenten. Om de rol en noodzaak van communicatie in complexe sociale omgevingen te onderzoeken, bestuderen we een belichaamd sociaal deductiespel gebaseerd op Among Us, waarbij de belangrijkste vraag is de identiteit van een vijandige bedrieger. We analyseren opkomende gedragingen als gevolg van onze techniek, zoals verdachten beschuldigen en bewijs leveren, en ontdekken dat het sterke discussies mogelijk maakt, waardoor de winstkansen verdubbelen in vergelijking met standaard RL. We publiceren onze code en modellen op https://socialdeductionllm.github.io/
English
Communicating in natural language is a powerful tool in multi-agent settings, as it enables independent agents to share information in partially observable settings and allows zero-shot coordination with humans. However, most prior works are limited as they either rely on training with large amounts of human demonstrations or lack the ability to generate natural and useful communication strategies. In this work, we train language models to have productive discussions about their environment in natural language without any human demonstrations. We decompose the communication problem into listening and speaking. Our key idea is to leverage the agent's goal to predict useful information about the world as a dense reward signal that guides communication. Specifically, we improve a model's listening skills by training them to predict information about the environment based on discussions, and we simultaneously improve a model's speaking skills with multi-agent reinforcement learning by rewarding messages based on their influence on other agents. To investigate the role and necessity of communication in complex social settings, we study an embodied social deduction game based on Among Us, where the key question to answer is the identity of an adversarial imposter. We analyze emergent behaviors due to our technique, such as accusing suspects and providing evidence, and find that it enables strong discussions, doubling the win rates compared to standard RL. We release our code and models at https://socialdeductionllm.github.io/

Summary

AI-Generated Summary

PDF383February 11, 2025