ChatPaper.aiChatPaper

B-STaR: Monitoring en Balanceren van Verkenning en Exploitatie in Zelflerende Redeneerders

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

December 23, 2024
Auteurs: Weihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He
cs.AI

Samenvatting

In het geval van een gebrek aan uitgebreide door mensen geannoteerde gegevens voor complexe redeneertaken, is zelfverbetering - waar modellen worden getraind op hun eigen uitvoer - naar voren gekomen als een primaire methode om de prestaties te verbeteren. De kritieke factoren die aan de basis liggen van het mechanisme van deze iteratieve zelfverbeterende methoden blijven echter slecht begrepen, zoals onder welke omstandigheden zelfverbetering effectief is, en wat de knelpunten zijn in de huidige iteraties. In dit werk identificeren en stellen we methoden voor om twee cruciale factoren in dit iteratieve proces te monitoren: (1) het vermogen van het model om voldoende diverse antwoorden te genereren (verkenning); en (2) de effectiviteit van externe beloningen bij het onderscheiden van kandidaten van hoge kwaliteit van kandidaten van lagere kwaliteit (exploitatie). Met behulp van wiskundig redeneren als case study, beginnen we met een kwantitatieve analyse om de dynamiek van verkenning en exploitatie te volgen, waarbij we ontdekken dat de verkennende mogelijkheden van een model snel verslechteren naarmate de iteraties vorderen, en dat de effectiviteit van het benutten van externe beloningen ook afneemt. Gemotiveerd door deze bevindingen introduceren we B-STaR, een Zelflerend Redeneringskader dat autonoom configuraties aanpast over iteraties om verkenning en exploitatie in balans te brengen, en daarmee de zelfverbeterende effectiviteit optimaliseert op basis van het huidige beleidsmodel en beschikbare beloningen. Onze experimenten op het gebied van wiskundig redeneren, coderen en gezond verstandredenering tonen aan dat B-STaR niet alleen de verkennende mogelijkheden van het model gedurende de training verbetert, maar ook een effectievere balans tussen verkenning en exploitatie bereikt, wat leidt tot superieure prestaties.
English
In the absence of extensive human-annotated data for complex reasoning tasks, self-improvement -- where models are trained on their own outputs -- has emerged as a primary method for enhancing performance. However, the critical factors underlying the mechanism of these iterative self-improving methods remain poorly understood, such as under what conditions self-improvement is effective, and what are the bottlenecks in the current iterations. In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model's ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation). Using mathematical reasoning as a case study, we begin with a quantitative analysis to track the dynamics of exploration and exploitation, discovering that a model's exploratory capabilities rapidly deteriorate over iterations, and the effectiveness of exploiting external rewards diminishes as well. Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning framework that autonomously adjusts configurations across iterations to Balance exploration and exploitation, thereby optimizing the self-improving effectiveness based on the current policy model and available rewards. Our experiments on mathematical reasoning, coding, and commonsense reasoning demonstrate that B-STaR not only enhances the model's exploratory capabilities throughout training but also achieves a more effective balance between exploration and exploitation, leading to superior performance.
PDF472January 9, 2026