ChatPaper.aiChatPaper

ReST se encuentra con ReAct: Automejora para agentes de LLM con razonamiento de múltiples pasos

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

December 15, 2023
Autores: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
cs.AI

Resumen

Responder a preguntas complejas en lenguaje natural a menudo requiere un razonamiento de múltiples pasos y la integración de información externa. Varios sistemas han combinado la recuperación de conocimiento con un modelo de lenguaje grande (LLM, por sus siglas en inglés) para responder a este tipo de preguntas. Sin embargo, estos sistemas presentan diversos casos de fallo, y no podemos entrenarlos directamente de extremo a extremo para corregir dichos fallos, ya que la interacción con el conocimiento externo no es diferenciable. Para abordar estas deficiencias, definimos un agente LLM de estilo ReAct con la capacidad de razonar y actuar sobre el conocimiento externo. Además, refinamos el agente mediante un método similar a ReST que entrena iterativamente sobre trayectorias previas, empleando aprendizaje por refuerzo de lote creciente con retroalimentación de IA para la mejora continua y la auto-distilación. Partiendo de un modelo grande con indicaciones y después de solo dos iteraciones del algoritmo, podemos producir un modelo pequeño ajustado que logra un rendimiento comparable en benchmarks desafiantes de respuesta a preguntas composicionales, utilizando dos órdenes de magnitud menos de parámetros.
English
Answering complex natural language questions often necessitates multi-step reasoning and integrating external information. Several systems have combined knowledge retrieval with a large language model (LLM) to answer such questions. These systems, however, suffer from various failure cases, and we cannot directly train them end-to-end to fix such failures, as interaction with external knowledge is non-differentiable. To address these deficiencies, we define a ReAct-style LLM agent with the ability to reason and act upon external knowledge. We further refine the agent through a ReST-like method that iteratively trains on previous trajectories, employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation. Starting from a prompted large model and after just two iterations of the algorithm, we can produce a fine-tuned small model that achieves comparable performance on challenging compositional question-answering benchmarks with two orders of magnitude fewer parameters.
PDF431December 15, 2024