ReST trifft ReAct: Selbstverbesserung für mehrstufiges Denken in LLM-Agenten
ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent
December 15, 2023
Autoren: Renat Aksitov, Sobhan Miryoosefi, Zonglin Li, Daliang Li, Sheila Babayan, Kavya Kopparapu, Zachary Fisher, Ruiqi Guo, Sushant Prakash, Pranesh Srinivasan, Manzil Zaheer, Felix Yu, Sanjiv Kumar
cs.AI
Zusammenfassung
Das Beantworten komplexer Fragen in natürlicher Sprache erfordert oft mehrstufiges Denken und die Integration externer Informationen. Mehrere Systeme haben Wissensabruf mit einem großen Sprachmodell (LLM) kombiniert, um solche Fragen zu beantworten. Diese Systeme leiden jedoch unter verschiedenen Fehlfällen, und wir können sie nicht direkt end-to-end trainieren, um solche Fehler zu beheben, da die Interaktion mit externem Wissen nicht differenzierbar ist. Um diese Mängel zu beheben, definieren wir einen ReAct-artigen LLM-Agenten mit der Fähigkeit, externes Wissen zu verarbeiten und darauf zu reagieren. Wir verfeinern den Agenten weiter durch eine ReST-ähnliche Methode, die iterativ auf früheren Trajektorien trainiert und dabei wachsende-Batch-Verstärkungslernen mit KI-Feedback für kontinuierliche Selbstverbesserung und Selbstdestillation einsetzt. Ausgehend von einem geprompteten großen Modell können wir nach nur zwei Iterationen des Algorithmus ein feinabgestimmtes kleines Modell erzeugen, das auf anspruchsvollen Benchmarks für zusammengesetzte Frage-Antwort-Aufgaben eine vergleichbare Leistung erzielt, jedoch mit zwei Größenordnungen weniger Parametern.
English
Answering complex natural language questions often necessitates multi-step
reasoning and integrating external information. Several systems have combined
knowledge retrieval with a large language model (LLM) to answer such questions.
These systems, however, suffer from various failure cases, and we cannot
directly train them end-to-end to fix such failures, as interaction with
external knowledge is non-differentiable. To address these deficiencies, we
define a ReAct-style LLM agent with the ability to reason and act upon external
knowledge. We further refine the agent through a ReST-like method that
iteratively trains on previous trajectories, employing growing-batch
reinforcement learning with AI feedback for continuous self-improvement and
self-distillation. Starting from a prompted large model and after just two
iterations of the algorithm, we can produce a fine-tuned small model that
achieves comparable performance on challenging compositional question-answering
benchmarks with two orders of magnitude fewer parameters.