ReSTがReActと出会う:多段階推論LLMエージェントの自己改善
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
December 15, 2023
著者: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
cs.AI
要旨
複雑な自然言語質問に答えるためには、多段階の推論と外部情報の統合がしばしば必要となります。これまで、いくつかのシステムが知識検索と大規模言語モデル(LLM)を組み合わせて、そのような質問に答える試みを行ってきました。しかし、これらのシステムにはさまざまな失敗ケースが存在し、外部知識との相互作用が非微分可能であるため、そのような失敗を直接エンドツーエンドで修正するための訓練を行うことができません。これらの欠点を解決するため、我々は外部知識に対して推論し行動する能力を持つReActスタイルのLLMエージェントを定義しました。さらに、ReSTのような手法を用いて、過去の軌跡に基づいて反復的に訓練を行い、AIフィードバックを用いた成長バッチ強化学習を通じて、継続的な自己改善と自己蒸留を実現しました。プロンプトされた大規模モデルから始め、わずか2回のアルゴリズム反復で、パラメータ数を2桁少なくした微調整済みの小型モデルを作成し、困難な構成型質問応答ベンチマークで同等の性能を達成することができました。
English
Answering complex natural language questions often necessitates multi-step
reasoning and integrating external information. Several systems have combined
knowledge retrieval with a large language model (LLM) to answer such questions.
These systems, however, suffer from various failure cases, and we cannot
directly train them end-to-end to fix such failures, as interaction with
external knowledge is non-differentiable. To address these deficiencies, we
define a ReAct-style LLM agent with the ability to reason and act upon external
knowledge. We further refine the agent through a ReST-like method that
iteratively trains on previous trajectories, employing growing-batch
reinforcement learning with AI feedback for continuous self-improvement and
self-distillation. Starting from a prompted large model and after just two
iterations of the algorithm, we can produce a fine-tuned small model that
achieves comparable performance on challenging compositional question-answering
benchmarks with two orders of magnitude fewer parameters.