ReST trifft ReAct: Selbstverbesserung für mehrstufiges Denken in LLM-Agenten

papers.abstract

Das Beantworten komplexer Fragen in natürlicher Sprache erfordert oft mehrstufiges Denken und die Integration externer Informationen. Mehrere Systeme haben Wissensabruf mit einem großen Sprachmodell (LLM) kombiniert, um solche Fragen zu beantworten. Diese Systeme leiden jedoch unter verschiedenen Fehlfällen, und wir können sie nicht direkt end-to-end trainieren, um solche Fehler zu beheben, da die Interaktion mit externem Wissen nicht differenzierbar ist. Um diese Mängel zu beheben, definieren wir einen ReAct-artigen LLM-Agenten mit der Fähigkeit, externes Wissen zu verarbeiten und darauf zu reagieren. Wir verfeinern den Agenten weiter durch eine ReST-ähnliche Methode, die iterativ auf früheren Trajektorien trainiert und dabei wachsende-Batch-Verstärkungslernen mit KI-Feedback für kontinuierliche Selbstverbesserung und Selbstdestillation einsetzt. Ausgehend von einem geprompteten großen Modell können wir nach nur zwei Iterationen des Algorithmus ein feinabgestimmtes kleines Modell erzeugen, das auf anspruchsvollen Benchmarks für zusammengesetzte Frage-Antwort-Aufgaben eine vergleichbare Leistung erzielt, jedoch mit zwei Größenordnungen weniger Parametern.

English

Answering complex natural language questions often necessitates multi-step reasoning and integrating external information. Several systems have combined knowledge retrieval with a large language model (LLM) to answer such questions. These systems, however, suffer from various failure cases, and we cannot directly train them end-to-end to fix such failures, as interaction with external knowledge is non-differentiable. To address these deficiencies, we define a ReAct-style LLM agent with the ability to reason and act upon external knowledge. We further refine the agent through a ReST-like method that iteratively trains on previous trajectories, employing growing-batch reinforcement learning with AI feedback for continuous self-improvement and self-distillation. Starting from a prompted large model and after just two iterations of the algorithm, we can produce a fine-tuned small model that achieves comparable performance on challenging compositional question-answering benchmarks with two orders of magnitude fewer parameters.

ReST trifft ReAct: Selbstverbesserung für mehrstufiges Denken in LLM-Agenten

ReST meets ReAct: Self-Improvement for Multi-Step Reasoning LLM Agent

papers.abstract

Support