Mejorando la Negociación en Modelos de Lenguaje con Auto-Juego y Aprendizaje en Contexto a partir de Retroalimentación de IA
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
May 17, 2023
Autores: Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata
cs.AI
Resumen
Estudiamos si múltiples modelos de lenguaje grandes (LLMs, por sus siglas en inglés) pueden mejorarse autónomamente entre sí en un juego de negociación mediante la interacción, la reflexión y la crítica. Nos interesa esta pregunta porque, si los LLMs fueran capaces de mejorarse mutuamente, implicaría la posibilidad de crear agentes de IA potentes con una intervención humana mínima. Hacemos que dos LLMs negocien entre sí, asumiendo los roles de comprador y vendedor, respectivamente. Su objetivo es llegar a un acuerdo, con el comprador buscando un precio más bajo y el vendedor uno más alto. Un tercer modelo de lenguaje, actuando como crítico, proporciona retroalimentación a un jugador para mejorar sus estrategias de negociación. Permitimos que los dos agentes jueguen múltiples rondas, utilizando el historial de negociaciones previas y la retroalimentación de la IA como demostraciones en contexto para mejorar iterativamente la estrategia de negociación del modelo. Utilizamos diferentes LLMs (GPT y Claude) para distintos roles y empleamos el precio del acuerdo como métrica de evaluación. Nuestros experimentos revelan varios hallazgos intrigantes: (1) Solo un subconjunto de los modelos de lenguaje que consideramos puede autojugarse y mejorar el precio del acuerdo a partir de la retroalimentación de la IA; los modelos más débiles no entienden las reglas del juego o no pueden incorporar la retroalimentación para seguir mejorando. (2) La capacidad de los modelos para aprender de la retroalimentación difiere según el rol que desempeñen. Por ejemplo, es más difícil para Claude-instant mejorar como comprador que como vendedor. (3) Al extender el juego a múltiples rondas, los agentes más fuertes pueden mejorar consistentemente su desempeño utilizando de manera significativa experiencias previas y retroalimentación iterativa de la IA, aunque tienen un mayor riesgo de romper el acuerdo. Esperamos que nuestro trabajo proporcione exploraciones iniciales esclarecedoras sobre cómo los modelos pueden mejorarse autónomamente entre sí mediante el juego y la retroalimentación de la IA.
English
We study whether multiple large language models (LLMs) can autonomously
improve each other in a negotiation game by playing, reflecting, and
criticizing. We are interested in this question because if LLMs were able to
improve each other, it would imply the possibility of creating strong AI agents
with minimal human intervention. We ask two LLMs to negotiate with each other,
playing the roles of a buyer and a seller, respectively. They aim to reach a
deal with the buyer targeting a lower price and the seller a higher one. A
third language model, playing the critic, provides feedback to a player to
improve the player's negotiation strategies. We let the two agents play
multiple rounds, using previous negotiation history and AI feedback as
in-context demonstrations to improve the model's negotiation strategy
iteratively. We use different LLMs (GPT and Claude) for different roles and use
the deal price as the evaluation metric. Our experiments reveal multiple
intriguing findings: (1) Only a subset of the language models we consider can
self-play and improve the deal price from AI feedback, weaker models either do
not understand the game's rules or cannot incorporate AI feedback for further
improvement. (2) Models' abilities to learn from the feedback differ when
playing different roles. For example, it is harder for Claude-instant to
improve as the buyer than as the seller. (3) When unrolling the game to
multiple rounds, stronger agents can consistently improve their performance by
meaningfully using previous experiences and iterative AI feedback, yet have a
higher risk of breaking the deal. We hope our work provides insightful initial
explorations of having models autonomously improve each other with game playing
and AI feedback.