B-STaR: Überwachung und Ausbalancierung von Exploration und Exploitation bei selbstlernenden Vernunftsystemen
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
December 23, 2024
Autoren: Weihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He
cs.AI
Zusammenfassung
In Ermangelung umfangreicher menschlich annotierter Daten für komplexe Schlussfolgerungsaufgaben hat sich die Selbstverbesserung - bei der Modelle auf ihren eigenen Ausgaben trainiert werden - als primäre Methode zur Leistungssteigerung etabliert. Die entscheidenden Faktoren, die dem Mechanismus dieser iterativen selbstverbessernden Methoden zugrunde liegen, sind jedoch schlecht verstanden, wie zum Beispiel unter welchen Bedingungen Selbstverbesserung wirksam ist und was die Engpässe in den aktuellen Iterationen sind. In dieser Arbeit identifizieren wir und schlagen Methoden vor, um zwei entscheidende Faktoren in diesem iterativen Prozess zu überwachen: (1) die Fähigkeit des Modells, ausreichend diverse Antworten zu generieren (Exploration); und (2) die Effektivität externer Belohnungen bei der Unterscheidung von hochwertigen Kandidaten von minderwertigen (Exploitation). Anhand mathematischer Schlussfolgerungen als Fallstudie beginnen wir mit einer quantitativen Analyse, um die Dynamik von Exploration und Exploitation zu verfolgen und entdecken, dass die explorativen Fähigkeiten eines Modells über Iterationen hinweg schnell nachlassen und auch die Effektivität bei der Ausnutzung externer Belohnungen abnimmt. Basierend auf diesen Erkenntnissen stellen wir B-STaR vor, ein selbstlernendes Schlussfolgerungsframework, das Konfigurationen über Iterationen hinweg autonom anpasst, um Exploration und Exploitation auszubalancieren und somit die Selbstverbesserungseffektivität basierend auf dem aktuellen Richtlinienmodell und den verfügbaren Belohnungen zu optimieren. Unsere Experimente zu mathematischen Schlussfolgerungen, Codierung und gesundem Menschenverstand zeigen, dass B-STaR nicht nur die explorativen Fähigkeiten des Modells während des Trainings verbessert, sondern auch ein effektiveres Gleichgewicht zwischen Exploration und Exploitation erreicht, was zu einer überlegenen Leistung führt.
English
In the absence of extensive human-annotated data for complex reasoning tasks,
self-improvement -- where models are trained on their own outputs -- has
emerged as a primary method for enhancing performance. However, the critical
factors underlying the mechanism of these iterative self-improving methods
remain poorly understood, such as under what conditions self-improvement is
effective, and what are the bottlenecks in the current iterations. In this
work, we identify and propose methods to monitor two pivotal factors in this
iterative process: (1) the model's ability to generate sufficiently diverse
responses (exploration); and (2) the effectiveness of external rewards in
distinguishing high-quality candidates from lower-quality ones (exploitation).
Using mathematical reasoning as a case study, we begin with a quantitative
analysis to track the dynamics of exploration and exploitation, discovering
that a model's exploratory capabilities rapidly deteriorate over iterations,
and the effectiveness of exploiting external rewards diminishes as well.
Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning
framework that autonomously adjusts configurations across iterations to Balance
exploration and exploitation, thereby optimizing the self-improving
effectiveness based on the current policy model and available rewards. Our
experiments on mathematical reasoning, coding, and commonsense reasoning
demonstrate that B-STaR not only enhances the model's exploratory capabilities
throughout training but also achieves a more effective balance between
exploration and exploitation, leading to superior performance.Summary
AI-Generated Summary