ReST rencontre ReAct : Auto-amélioration pour un agent LLM de raisonnement multi-étapes
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
December 15, 2023
Auteurs: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
cs.AI
Résumé
Répondre à des questions complexes en langage naturel nécessite souvent un raisonnement en plusieurs étapes et l'intégration d'informations externes. Plusieurs systèmes ont combiné la récupération de connaissances avec un modèle de langage de grande taille (LLM) pour répondre à de telles questions. Cependant, ces systèmes souffrent de divers cas d'échec, et nous ne pouvons pas les entraîner directement de bout en bout pour corriger ces échecs, car l'interaction avec des connaissances externes est non différentiable. Pour remédier à ces lacunes, nous définissons un agent LLM de style ReAct capable de raisonner et d'agir sur des connaissances externes. Nous affinons ensuite cet agent grâce à une méthode de type ReST qui entraîne itérativement sur les trajectoires précédentes, en utilisant un apprentissage par renforcement par lots croissants avec un retour d'information de l'IA pour une amélioration et une auto-distillation continues. En partant d'un grand modèle amorcé et après seulement deux itérations de l'algorithme, nous pouvons produire un petit modèle affiné qui atteint des performances comparables sur des benchmarks exigeants de question-réponse compositionnelle avec deux ordres de grandeur de paramètres en moins.
English
Answering complex natural language questions often necessitates multi-step
reasoning and integrating external information. Several systems have combined
knowledge retrieval with a large language model (LLM) to answer such questions.
These systems, however, suffer from various failure cases, and we cannot
directly train them end-to-end to fix such failures, as interaction with
external knowledge is non-differentiable. To address these deficiencies, we
define a ReAct-style LLM agent with the ability to reason and act upon external
knowledge. We further refine the agent through a ReST-like method that
iteratively trains on previous trajectories, employing growing-batch
reinforcement learning with AI feedback for continuous self-improvement and
self-distillation. Starting from a prompted large model and after just two
iterations of the algorithm, we can produce a fine-tuned small model that
achieves comparable performance on challenging compositional question-answering
benchmarks with two orders of magnitude fewer parameters.