ReST ontmoet ReAct: Zelfverbetering voor Multi-Stap Redenerende LLM-Agent
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
December 15, 2023
Auteurs: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
cs.AI
Samenvatting
Het beantwoorden van complexe vragen in natuurlijke taal vereist vaak meerstaps redeneren en het integreren van externe informatie. Verschillende systemen hebben kennisretrieval gecombineerd met een groot taalmodel (LLM) om dergelijke vragen te beantwoorden. Deze systemen kampen echter met diverse foutgevallen, en we kunnen ze niet direct end-to-end trainen om deze fouten te verhelpen, omdat interactie met externe kennis niet differentieerbaar is. Om deze tekortkomingen aan te pakken, definiëren we een ReAct-stijl LLM-agent met de mogelijkheid om te redeneren en actie te ondernemen op basis van externe kennis. We verfijnen de agent verder via een ReST-achtige methode die iteratief traint op eerdere trajecten, waarbij groeiende-batch versterkend leren met AI-feedback wordt ingezet voor continue zelfverbetering en zelfdistillatie. Uitgaande van een geprompt groot model en na slechts twee iteraties van het algoritme, kunnen we een fijn afgestemd klein model produceren dat vergelijkbare prestaties behaalt op uitdagende compositie-vraag-antwoord benchmarks met twee ordes van grootte minder parameters.
English
Answering complex natural language questions often necessitates multi-step
reasoning and integrating external information. Several systems have combined
knowledge retrieval with a large language model (LLM) to answer such questions.
These systems, however, suffer from various failure cases, and we cannot
directly train them end-to-end to fix such failures, as interaction with
external knowledge is non-differentiable. To address these deficiencies, we
define a ReAct-style LLM agent with the ability to reason and act upon external
knowledge. We further refine the agent through a ReST-like method that
iteratively trains on previous trajectories, employing growing-batch
reinforcement learning with AI feedback for continuous self-improvement and
self-distillation. Starting from a prompted large model and after just two
iterations of the algorithm, we can produce a fine-tuned small model that
achieves comparable performance on challenging compositional question-answering
benchmarks with two orders of magnitude fewer parameters.