RL4F: 모델 출력 수정을 위한 강화 학습 기반 자연어 피드백 생성
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
저자: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
초록
전례 없는 성공에도 불구하고, 가장 큰 언어 모델들조차 실수를 저지릅니다. 인간이 피드백을 통해 학습하고 개선하는 방식과 유사하게, 기존 연구에서는 언어 모델이 출력을 수정하도록 자연어 피드백을 제공하는 방법을 제안했습니다. 인간이 생성한 비평은 얻는 데 비용이 많이 들기 때문에, 연구자들은 인간 비평가 대신 학습된 비평 생성기를 고안했으며, 생성된 피드백을 활용하도록 다운스트림 모델을 훈련할 수 있다고 가정했습니다. 그러나 이 접근 방식은 ChatGPT와 같은 블랙박스 또는 제한된 접근 모델에는 적용할 수 없습니다. 왜냐하면 이러한 모델들은 미세 조정(fine-tuning)이 불가능하기 때문입니다. 더욱이, 대규모 범용 언어 에이전트의 시대에서 미세 조정은 계산적으로나 공간적으로 효율적이지 않으며, 이는 네트워크의 여러 복사본을 초래합니다. 본 연구에서는 RL4F(Reinforcement Learning for Feedback)를 소개합니다. 이는 비평 생성기가 GPT-3와 같은 고정된 모델(자신보다 200배 이상 큰 모델)의 최종 작업 성능을 극대화하도록 훈련되는 다중 에이전트 협업 프레임워크입니다. RL4F는 GPT-3가 출력을 수정하는 데 도움이 되는 비평을 생성합니다. 우리는 행동 계획, 요약 및 알파벳 순서화를 위한 세 가지 데이터셋을 연구하고, 세 가지 작업 모두에서 강력한 베이스라인 대비 여러 텍스트 유사성 지표에서 평균 약 5%의 개선을 보여줍니다.
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.