자기 대결과 AI 피드백을 통한 문맥 학습을 활용한 언어 모델 협상 능력 향상
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback
May 17, 2023
저자: Yao Fu, Hao Peng, Tushar Khot, Mirella Lapata
cs.AI
초록
우리는 다수의 대형 언어 모델(LLM)이 협상 게임을 통해 서로를 자율적으로 개선할 수 있는지, 즉 게임을 플레이하고, 성찰하며, 비판하는 과정을 통해 개선이 가능한지를 연구한다. 이 질문에 관심을 갖는 이유는, 만약 LLM이 서로를 개선할 수 있다면, 최소한의 인간 개입으로 강력한 AI 에이전트를 창출할 가능성이 있기 때문이다. 우리는 두 개의 LLM이 각각 구매자와 판매자의 역할을 맡아 서로 협상하도록 요청한다. 이들은 구매자는 낮은 가격을, 판매자는 높은 가격을 목표로 거래를 성사시키려 한다. 비평가 역할을 맡은 세 번째 언어 모델은 플레이어에게 피드백을 제공하여 협상 전략을 개선하도록 돕는다. 우리는 두 에이전트가 여러 라운드를 플레이하도록 하며, 이전 협상 기록과 AI 피드백을 문맥 내 데모로 활용하여 모델의 협상 전략을 반복적으로 개선한다. 우리는 서로 다른 역할에 대해 서로 다른 LLM(GPT와 Claude)을 사용하며, 거래 가격을 평가 지표로 활용한다. 실험 결과, 다음과 같은 흥미로운 발견을 얻었다: (1) 고려한 언어 모델 중 일부만이 자가 플레이를 통해 AI 피드백으로부터 거래 가격을 개선할 수 있었으며, 약한 모델은 게임 규칙을 이해하지 못하거나 AI 피드백을 추가 개선에 활용하지 못했다. (2) 모델의 피드백 학습 능력은 역할에 따라 달라졌다. 예를 들어, Claude-instant는 판매자 역할보다 구매자 역할에서 개선하기가 더 어려웠다. (3) 게임을 여러 라운드로 진행할 때, 강력한 에이전트는 이전 경험과 반복적인 AI 피드백을 의미 있게 활용하여 성능을 지속적으로 개선할 수 있었지만, 거래가 깨질 위험도 더 컸다. 우리는 이 연구가 게임 플레이와 AI 피드백을 통해 모델이 서로를 자율적으로 개선하는 초기 탐구로서 유의미한 통찰을 제공하기를 바란다.
English
We study whether multiple large language models (LLMs) can autonomously
improve each other in a negotiation game by playing, reflecting, and
criticizing. We are interested in this question because if LLMs were able to
improve each other, it would imply the possibility of creating strong AI agents
with minimal human intervention. We ask two LLMs to negotiate with each other,
playing the roles of a buyer and a seller, respectively. They aim to reach a
deal with the buyer targeting a lower price and the seller a higher one. A
third language model, playing the critic, provides feedback to a player to
improve the player's negotiation strategies. We let the two agents play
multiple rounds, using previous negotiation history and AI feedback as
in-context demonstrations to improve the model's negotiation strategy
iteratively. We use different LLMs (GPT and Claude) for different roles and use
the deal price as the evaluation metric. Our experiments reveal multiple
intriguing findings: (1) Only a subset of the language models we consider can
self-play and improve the deal price from AI feedback, weaker models either do
not understand the game's rules or cannot incorporate AI feedback for further
improvement. (2) Models' abilities to learn from the feedback differ when
playing different roles. For example, it is harder for Claude-instant to
improve as the buyer than as the seller. (3) When unrolling the game to
multiple rounds, stronger agents can consistently improve their performance by
meaningfully using previous experiences and iterative AI feedback, yet have a
higher risk of breaking the deal. We hope our work provides insightful initial
explorations of having models autonomously improve each other with game playing
and AI feedback.