Het verbeteren van taalmodelonderhandelingen met zelfspel en in-context leren op basis van AI-feedback

Samenvatting

We onderzoeken of meerdere grote taalmodellen (LLMs) elkaar autonoom kunnen verbeteren in een onderhandelingsspel door te spelen, reflecteren en bekritiseren. We zijn geïnteresseerd in deze vraag omdat, als LLMs elkaar zouden kunnen verbeteren, dit de mogelijkheid zou impliceren om sterke AI-agenten te creëren met minimale menselijke interventie. We laten twee LLMs met elkaar onderhandelen, waarbij ze respectievelijk de rollen van koper en verkoper spelen. Ze streven ernaar een deal te sluiten, waarbij de koper een lagere prijs nastreeft en de verkoper een hogere. Een derde taalmodel, dat de rol van criticus speelt, geeft feedback aan een speler om diens onderhandelingsstrategieën te verbeteren. We laten de twee agenten meerdere rondes spelen, waarbij ze eerdere onderhandelingsgeschiedenis en AI-feedback gebruiken als in-context demonstraties om het onderhandelingsmodel iteratief te verbeteren. We gebruiken verschillende LLMs (GPT en Claude) voor verschillende rollen en gebruiken de dealprijs als evaluatiemetric. Onze experimenten onthullen meerdere intrigerende bevindingen: (1) Slechts een subset van de taalmodellen die we beschouwen, kan zelf spelen en de dealprijs verbeteren op basis van AI-feedback; zwakkere modellen begrijpen de spelregels niet of kunnen de AI-feedback niet gebruiken voor verdere verbetering. (2) De vaardigheden van modellen om van de feedback te leren verschillen wanneer ze verschillende rollen spelen. Zo is het voor Claude-instant bijvoorbeeld moeilijker om zich te verbeteren als koper dan als verkoper. (3) Wanneer het spel over meerdere rondes wordt uitgerold, kunnen sterkere agenten hun prestaties consistent verbeteren door zinvol gebruik te maken van eerdere ervaringen en iteratieve AI-feedback, maar lopen ze een hoger risico om de deal te verbreken. We hopen dat ons werk inzichtelijke eerste verkenningen biedt van het autonoom laten verbeteren van modellen door middel van spel en AI-feedback.

English

We study whether multiple large language models (LLMs) can autonomously improve each other in a negotiation game by playing, reflecting, and criticizing. We are interested in this question because if LLMs were able to improve each other, it would imply the possibility of creating strong AI agents with minimal human intervention. We ask two LLMs to negotiate with each other, playing the roles of a buyer and a seller, respectively. They aim to reach a deal with the buyer targeting a lower price and the seller a higher one. A third language model, playing the critic, provides feedback to a player to improve the player's negotiation strategies. We let the two agents play multiple rounds, using previous negotiation history and AI feedback as in-context demonstrations to improve the model's negotiation strategy iteratively. We use different LLMs (GPT and Claude) for different roles and use the deal price as the evaluation metric. Our experiments reveal multiple intriguing findings: (1) Only a subset of the language models we consider can self-play and improve the deal price from AI feedback, weaker models either do not understand the game's rules or cannot incorporate AI feedback for further improvement. (2) Models' abilities to learn from the feedback differ when playing different roles. For example, it is harder for Claude-instant to improve as the buyer than as the seller. (3) When unrolling the game to multiple rounds, stronger agents can consistently improve their performance by meaningfully using previous experiences and iterative AI feedback, yet have a higher risk of breaking the deal. We hope our work provides insightful initial explorations of having models autonomously improve each other with game playing and AI feedback.

Het verbeteren van taalmodelonderhandelingen met zelfspel en in-context leren op basis van AI-feedback

Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

Samenvatting

Support