RL4F: モデル出力の修復に向けた強化学習を用いた自然言語フィードバック生成
RL4F: Generating Natural Language Feedback with Reinforcement Learning for Repairing Model Outputs
May 15, 2023
著者: Afra Feyza Akyürek, Ekin Akyürek, Aman Madaan, Ashwin Kalyan, Peter Clark, Derry Wijaya, Niket Tandon
cs.AI
要旨
前例のない成功を収めているにもかかわらず、最大規模の言語モデルでさえもミスを犯します。人間がフィードバックを用いて学習し改善するのと同様に、従来の研究では、言語モデルに自然言語のフィードバックを提供し、その出力を修正するよう導くことが提案されてきました。人間による批評は取得にコストがかかるため、研究者たちは人間の批評家に代わる学習済みの批評生成器を考案し、生成されたフィードバックを利用するよう下流モデルを訓練できると仮定しました。しかし、このアプローチはChatGPTのようなブラックボックスやアクセスが制限されたモデルには適用できません。なぜなら、それらはファインチューニングできないからです。さらに、大規模な汎用言語エージェントの時代において、ファインチューニングは計算的にも空間的にも効率的ではなく、ネットワークの複数のコピーを生じさせます。本研究では、RL4F(Reinforcement Learning for Feedback)を紹介します。これは、批評生成器がGPT-3(その200倍以上のサイズの固定モデル)の最終タスク性能を最大化するよう訓練されるマルチエージェント協調フレームワークです。RL4Fは、GPT-3がその出力を修正するのに役立つ批評を生成します。我々は、行動計画、要約、アルファベット順並べ替えの3つのデータセットを研究し、全てのタスクにおいて強力なベースラインを上回る複数のテキスト類似度指標で平均約5%の改善を示しました。
English
Despite their unprecedented success, even the largest language models make
mistakes. Similar to how humans learn and improve using feedback, previous work
proposed providing language models with natural language feedback to guide them
in repairing their outputs. Because human-generated critiques are expensive to
obtain, researchers have devised learned critique generators in lieu of human
critics while assuming one can train downstream models to utilize generated
feedback. However, this approach does not apply to black-box or limited access
models such as ChatGPT, as they cannot be fine-tuned. Moreover, in the era of
large general-purpose language agents, fine-tuning is neither computationally
nor spatially efficient as it results in multiple copies of the network. In
this work, we introduce RL4F (Reinforcement Learning for Feedback), a
multi-agent collaborative framework where the critique generator is trained to
maximize end-task performance of GPT-3, a fixed model more than 200 times its
size. RL4F produces critiques that help GPT-3 revise its outputs. We study
three datasets for action planning, summarization and alphabetization and show
improvements (~5% on average) in multiple text similarity metrics over strong
baselines across all three tasks.