ReST encontra ReAct: Automelhoramento para Agentes de LLM com Raciocínio em Múltiplos Passos
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
December 15, 2023
Autores: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
cs.AI
Resumo
Responder a perguntas complexas em linguagem natural frequentemente exige raciocínio em múltiplas etapas e a integração de informações externas. Vários sistemas combinaram a recuperação de conhecimento com um modelo de linguagem de grande escala (LLM) para responder a tais perguntas. No entanto, esses sistemas enfrentam diversos casos de falha, e não podemos treiná-los diretamente de ponta a ponta para corrigir essas falhas, pois a interação com o conhecimento externo não é diferenciável. Para abordar essas deficiências, definimos um agente LLM no estilo ReAct com a capacidade de raciocinar e agir sobre o conhecimento externo. Além disso, refinamos o agente por meio de um método semelhante ao ReST que treina iterativamente em trajetórias anteriores, empregando aprendizado por reforço com lote crescente e feedback de IA para autodistilação e autodesenvolvimento contínuos. Partindo de um modelo grande pré-configurado e após apenas duas iterações do algoritmo, conseguimos produzir um modelo pequeno ajustado que alcança desempenho comparável em benchmarks desafiadores de respostas a perguntas composicionais, com duas ordens de magnitude a menos de parâmetros.
English
Answering complex natural language questions often necessitates multi-step
reasoning and integrating external information. Several systems have combined
knowledge retrieval with a large language model (LLM) to answer such questions.
These systems, however, suffer from various failure cases, and we cannot
directly train them end-to-end to fix such failures, as interaction with
external knowledge is non-differentiable. To address these deficiencies, we
define a ReAct-style LLM agent with the ability to reason and act upon external
knowledge. We further refine the agent through a ReST-like method that
iteratively trains on previous trajectories, employing growing-batch
reinforcement learning with AI feedback for continuous self-improvement and
self-distillation. Starting from a prompted large model and after just two
iterations of the algorithm, we can produce a fine-tuned small model that
achieves comparable performance on challenging compositional question-answering
benchmarks with two orders of magnitude fewer parameters.