B-STaR : Surveillance et Équilibrage de l'Exploration et de l'Exploitation chez les Raisonneurs Autodidactes

Résumé

En l'absence de données humaines annotées de manière extensive pour des tâches de raisonnement complexe, l'auto-amélioration - où les modèles sont entraînés sur leurs propres sorties - est devenue une méthode principale pour améliorer les performances. Cependant, les facteurs critiques sous-jacents au mécanisme de ces méthodes itératives d'auto-amélioration restent mal compris, tels que dans quelles conditions l'auto-amélioration est efficace, et quels sont les goulots d'étranglement dans les itérations actuelles. Dans ce travail, nous identifions et proposons des méthodes pour surveiller deux facteurs cruciaux dans ce processus itératif : (1) la capacité du modèle à générer des réponses suffisamment diverses (exploration) ; et (2) l'efficacité des récompenses externes pour distinguer les candidats de haute qualité des candidats de moindre qualité (exploitation). En utilisant le raisonnement mathématique comme étude de cas, nous commençons par une analyse quantitative pour suivre la dynamique de l'exploration et de l'exploitation, découvrant que les capacités exploratoires d'un modèle se détériorent rapidement au fil des itérations, et que l'efficacité de l'exploitation des récompenses externes diminue également. Motivés par ces résultats, nous introduisons B-STaR, un cadre d'auto-apprentissage du raisonnement qui ajuste automatiquement les configurations à travers les itérations pour équilibrer l'exploration et l'exploitation, optimisant ainsi l'efficacité de l'auto-amélioration en fonction du modèle de politique actuel et des récompenses disponibles. Nos expériences sur le raisonnement mathématique, le codage et le raisonnement de bon sens démontrent que B-STaR améliore non seulement les capacités exploratoires du modèle tout au long de l'entraînement, mais atteint également un équilibre plus efficace entre l'exploration et l'exploitation, conduisant à des performances supérieures.

English

In the absence of extensive human-annotated data for complex reasoning tasks, self-improvement -- where models are trained on their own outputs -- has emerged as a primary method for enhancing performance. However, the critical factors underlying the mechanism of these iterative self-improving methods remain poorly understood, such as under what conditions self-improvement is effective, and what are the bottlenecks in the current iterations. In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model's ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation). Using mathematical reasoning as a case study, we begin with a quantitative analysis to track the dynamics of exploration and exploitation, discovering that a model's exploratory capabilities rapidly deteriorate over iterations, and the effectiveness of exploiting external rewards diminishes as well. Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning framework that autonomously adjusts configurations across iterations to Balance exploration and exploitation, thereby optimizing the self-improving effectiveness based on the current policy model and available rewards. Our experiments on mathematical reasoning, coding, and commonsense reasoning demonstrate that B-STaR not only enhances the model's exploratory capabilities throughout training but also achieves a more effective balance between exploration and exploitation, leading to superior performance.

B-STaR : Surveillance et Équilibrage de l'Exploration et de l'Exploitation chez les Raisonneurs Autodidactes

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Résumé

Support