Amélioration de la négociation des modèles de langage par auto-apprentissage et apprentissage en contexte à partir de retours d'IA
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
May 17, 2023
Auteurs: Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata
cs.AI
Résumé
Nous étudions si plusieurs grands modèles de langage (LLMs) peuvent s'améliorer mutuellement de manière autonome dans un jeu de négociation en jouant, réfléchissant et critiquant. Cette question nous intéresse car si les LLMs étaient capables de s'améliorer mutuellement, cela impliquerait la possibilité de créer des agents d'IA puissants avec une intervention humaine minimale. Nous demandons à deux LLMs de négocier entre eux, jouant respectivement les rôles d'un acheteur et d'un vendeur. Leur objectif est de parvenir à un accord, l'acheteur visant un prix plus bas et le vendeur un prix plus élevé. Un troisième modèle de langage, jouant le rôle de critique, fournit des retours à un joueur pour améliorer ses stratégies de négociation. Nous laissons les deux agents jouer plusieurs tours, utilisant l'historique des négociations précédentes et les retours de l'IA comme démonstrations en contexte pour améliorer itérativement la stratégie de négociation du modèle. Nous utilisons différents LLMs (GPT et Claude) pour différents rôles et utilisons le prix de l'accord comme métrique d'évaluation. Nos expériences révèlent plusieurs découvertes intrigantes : (1) Seule une partie des modèles de langage que nous considérons peuvent s'auto-jouer et améliorer le prix de l'accord grâce aux retours de l'IA, les modèles plus faibles ne comprennent pas les règles du jeu ou ne peuvent pas intégrer les retours de l'IA pour une amélioration ultérieure. (2) Les capacités des modèles à apprendre des retours diffèrent selon les rôles joués. Par exemple, il est plus difficile pour Claude-instant de s'améliorer en tant qu'acheteur qu'en tant que vendeur. (3) Lorsque le jeu est déroulé sur plusieurs tours, les agents plus forts peuvent améliorer constamment leurs performances en utilisant de manière significative les expériences précédentes et les retours itératifs de l'IA, mais ont un risque plus élevé de rompre l'accord. Nous espérons que notre travail fournit des explorations initiales perspicaces sur l'amélioration autonome des modèles grâce au jeu et aux retours de l'IA.
English
We study whether multiple large language models (LLMs) can autonomously
improve each other in a negotiation game by playing, reflecting, and
criticizing. We are interested in this question because if LLMs were able to
improve each other, it would imply the possibility of creating strong AI agents
with minimal human intervention. We ask two LLMs to negotiate with each other,
playing the roles of a buyer and a seller, respectively. They aim to reach a
deal with the buyer targeting a lower price and the seller a higher one. A
third language model, playing the critic, provides feedback to a player to
improve the player's negotiation strategies. We let the two agents play
multiple rounds, using previous negotiation history and AI feedback as
in-context demonstrations to improve the model's negotiation strategy
iteratively. We use different LLMs (GPT and Claude) for different roles and use
the deal price as the evaluation metric. Our experiments reveal multiple
intriguing findings: (1) Only a subset of the language models we consider can
self-play and improve the deal price from AI feedback, weaker models either do
not understand the game's rules or cannot incorporate AI feedback for further
improvement. (2) Models' abilities to learn from the feedback differ when
playing different roles. For example, it is harder for Claude-instant to
improve as the buyer than as the seller. (3) When unrolling the game to
multiple rounds, stronger agents can consistently improve their performance by
meaningfully using previous experiences and iterative AI feedback, yet have a
higher risk of breaking the deal. We hope our work provides insightful initial
explorations of having models autonomously improve each other with game playing
and AI feedback.