B-STaR: Überwachung und Ausbalancierung von Exploration und Exploitation bei selbstlernenden Vernunftsystemen

Zusammenfassung

In Ermangelung umfangreicher menschlich annotierter Daten für komplexe Schlussfolgerungsaufgaben hat sich die Selbstverbesserung - bei der Modelle auf ihren eigenen Ausgaben trainiert werden - als primäre Methode zur Leistungssteigerung etabliert. Die entscheidenden Faktoren, die dem Mechanismus dieser iterativen selbstverbessernden Methoden zugrunde liegen, sind jedoch schlecht verstanden, wie zum Beispiel unter welchen Bedingungen Selbstverbesserung wirksam ist und was die Engpässe in den aktuellen Iterationen sind. In dieser Arbeit identifizieren wir und schlagen Methoden vor, um zwei entscheidende Faktoren in diesem iterativen Prozess zu überwachen: (1) die Fähigkeit des Modells, ausreichend diverse Antworten zu generieren (Exploration); und (2) die Effektivität externer Belohnungen bei der Unterscheidung von hochwertigen Kandidaten von minderwertigen (Exploitation). Anhand mathematischer Schlussfolgerungen als Fallstudie beginnen wir mit einer quantitativen Analyse, um die Dynamik von Exploration und Exploitation zu verfolgen und entdecken, dass die explorativen Fähigkeiten eines Modells über Iterationen hinweg schnell nachlassen und auch die Effektivität bei der Ausnutzung externer Belohnungen abnimmt. Basierend auf diesen Erkenntnissen stellen wir B-STaR vor, ein selbstlernendes Schlussfolgerungsframework, das Konfigurationen über Iterationen hinweg autonom anpasst, um Exploration und Exploitation auszubalancieren und somit die Selbstverbesserungseffektivität basierend auf dem aktuellen Richtlinienmodell und den verfügbaren Belohnungen zu optimieren. Unsere Experimente zu mathematischen Schlussfolgerungen, Codierung und gesundem Menschenverstand zeigen, dass B-STaR nicht nur die explorativen Fähigkeiten des Modells während des Trainings verbessert, sondern auch ein effektiveres Gleichgewicht zwischen Exploration und Exploitation erreicht, was zu einer überlegenen Leistung führt.

English

In the absence of extensive human-annotated data for complex reasoning tasks, self-improvement -- where models are trained on their own outputs -- has emerged as a primary method for enhancing performance. However, the critical factors underlying the mechanism of these iterative self-improving methods remain poorly understood, such as under what conditions self-improvement is effective, and what are the bottlenecks in the current iterations. In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model's ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation). Using mathematical reasoning as a case study, we begin with a quantitative analysis to track the dynamics of exploration and exploitation, discovering that a model's exploratory capabilities rapidly deteriorate over iterations, and the effectiveness of exploiting external rewards diminishes as well. Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning framework that autonomously adjusts configurations across iterations to Balance exploration and exploitation, thereby optimizing the self-improving effectiveness based on the current policy model and available rewards. Our experiments on mathematical reasoning, coding, and commonsense reasoning demonstrate that B-STaR not only enhances the model's exploratory capabilities throughout training but also achieves a more effective balance between exploration and exploitation, leading to superior performance.

B-STaR: Überwachung und Ausbalancierung von Exploration und Exploitation bei selbstlernenden Vernunftsystemen

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Zusammenfassung

Support