ReST encontra ReAct: Automelhoramento para Agentes de LLM com Raciocínio em Múltiplos Passos

Resumo

Responder a perguntas complexas em linguagem natural frequentemente exige raciocínio em múltiplas etapas e a integração de informações externas. Vários sistemas combinaram a recuperação de conhecimento com um modelo de linguagem de grande escala (LLM) para responder a tais perguntas. No entanto, esses sistemas enfrentam diversos casos de falha, e não podemos treiná-los diretamente de ponta a ponta para corrigir essas falhas, pois a interação com o conhecimento externo não é diferenciável. Para abordar essas deficiências, definimos um agente LLM no estilo ReAct com a capacidade de raciocinar e agir sobre o conhecimento externo. Além disso, refinamos o agente por meio de um método semelhante ao ReST que treina iterativamente em trajetórias anteriores, empregando aprendizado por reforço com lote crescente e feedback de IA para autodistilação e autodesenvolvimento contínuos. Partindo de um modelo grande pré-configurado e após apenas duas iterações do algoritmo, conseguimos produzir um modelo pequeno ajustado que alcança desempenho comparável em benchmarks desafiadores de respostas a perguntas composicionais, com duas ordens de magnitude a menos de parâmetros.

English

Answering complex natural language questions often necessitates multi-step reasoning and integrating external information. Several systems have combined knowledge retrieval with a large language model (LLM) to answer such questions. These systems, however, suffer from various failure cases, and we cannot directly train them end-to-end to fix such failures, as interaction with external knowledge is non-differentiable. To address these deficiencies, we define a ReAct-style LLM agent with the ability to reason and act upon external knowledge. We further refine the agent through a ReST-like method that iteratively trains on previous trajectories, employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation. Starting from a prompted large model and after just two iterations of the algorithm, we can produce a fine-tuned small model that achieves comparable performance on challenging compositional question-answering benchmarks with two orders of magnitude fewer parameters.

ReST encontra ReAct: Automelhoramento para Agentes de LLM com Raciocínio em Múltiplos Passos

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

Resumo

Support