Migliorare la negoziazione dei modelli linguistici con auto-gioco e apprendimento in-context da feedback di IA
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
May 17, 2023
Autori: Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata
cs.AI
Abstract
Studiamo se più modelli linguistici di grandi dimensioni (LLM) possano migliorarsi autonomamente in un gioco di negoziazione attraverso il gioco, la riflessione e la critica. Siamo interessati a questa domanda perché, se gli LLM fossero in grado di migliorarsi reciprocamente, ciò implicherebbe la possibilità di creare agenti di intelligenza artificiale (IA) avanzati con un intervento umano minimo. Chiediamo a due LLM di negoziare tra loro, interpretando rispettivamente i ruoli di acquirente e venditore, con l'obiettivo di raggiungere un accordo in cui l'acquirente punta a un prezzo più basso e il venditore a uno più alto. Un terzo modello linguistico, nel ruolo di critico, fornisce feedback a un giocatore per migliorare le sue strategie di negoziazione. Lasciamo che i due agenti giochino più round, utilizzando la storia delle negoziazioni precedenti e i feedback dell'IA come dimostrazioni contestuali per migliorare iterativamente la strategia di negoziazione del modello. Utilizziamo LLM diversi (GPT e Claude) per ruoli diversi e il prezzo dell'accordo come metrica di valutazione. I nostri esperimenti rivelano diversi risultati interessanti: (1) Solo un sottoinsieme dei modelli linguistici considerati è in grado di autogiocare e migliorare il prezzo dell'accordo grazie ai feedback dell'IA; i modelli più deboli non comprendono le regole del gioco o non riescono a incorporare i feedback dell'IA per ulteriori miglioramenti. (2) Le capacità dei modelli di apprendere dai feedback variano a seconda del ruolo interpretato. Ad esempio, per Claude-instant è più difficile migliorare come acquirente che come venditore. (3) Quando il gioco si sviluppa su più round, gli agenti più forti possono migliorare costantemente le loro prestazioni utilizzando in modo significativo le esperienze precedenti e i feedback iterativi dell'IA, ma hanno un rischio maggiore di rompere l'accordo. Speriamo che il nostro lavoro fornisca esplorazioni iniziali significative sull'idea di far migliorare autonomamente i modelli tra loro attraverso il gioco e i feedback dell'IA.
English
We study whether multiple large language models (LLMs) can autonomously
improve each other in a negotiation game by playing, reflecting, and
criticizing. We are interested in this question because if LLMs were able to
improve each other, it would imply the possibility of creating strong AI agents
with minimal human intervention. We ask two LLMs to negotiate with each other,
playing the roles of a buyer and a seller, respectively. They aim to reach a
deal with the buyer targeting a lower price and the seller a higher one. A
third language model, playing the critic, provides feedback to a player to
improve the player's negotiation strategies. We let the two agents play
multiple rounds, using previous negotiation history and AI feedback as
in-context demonstrations to improve the model's negotiation strategy
iteratively. We use different LLMs (GPT and Claude) for different roles and use
the deal price as the evaluation metric. Our experiments reveal multiple
intriguing findings: (1) Only a subset of the language models we consider can
self-play and improve the deal price from AI feedback, weaker models either do
not understand the game's rules or cannot incorporate AI feedback for further
improvement. (2) Models' abilities to learn from the feedback differ when
playing different roles. For example, it is harder for Claude-instant to
improve as the buyer than as the seller. (3) When unrolling the game to
multiple rounds, stronger agents can consistently improve their performance by
meaningfully using previous experiences and iterative AI feedback, yet have a
higher risk of breaking the deal. We hope our work provides insightful initial
explorations of having models autonomously improve each other with game playing
and AI feedback.