B-STaR : Surveillance et Équilibrage de l'Exploration et de l'Exploitation chez les Raisonneurs Autodidactes
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
December 23, 2024
Auteurs: Weihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He
cs.AI
Résumé
En l'absence de données humaines annotées de manière extensive pour des tâches de raisonnement complexe, l'auto-amélioration - où les modèles sont entraînés sur leurs propres sorties - est devenue une méthode principale pour améliorer les performances. Cependant, les facteurs critiques sous-jacents au mécanisme de ces méthodes itératives d'auto-amélioration restent mal compris, tels que dans quelles conditions l'auto-amélioration est efficace, et quels sont les goulots d'étranglement dans les itérations actuelles. Dans ce travail, nous identifions et proposons des méthodes pour surveiller deux facteurs cruciaux dans ce processus itératif : (1) la capacité du modèle à générer des réponses suffisamment diverses (exploration) ; et (2) l'efficacité des récompenses externes pour distinguer les candidats de haute qualité des candidats de moindre qualité (exploitation). En utilisant le raisonnement mathématique comme étude de cas, nous commençons par une analyse quantitative pour suivre la dynamique de l'exploration et de l'exploitation, découvrant que les capacités exploratoires d'un modèle se détériorent rapidement au fil des itérations, et que l'efficacité de l'exploitation des récompenses externes diminue également. Motivés par ces résultats, nous introduisons B-STaR, un cadre d'auto-apprentissage du raisonnement qui ajuste automatiquement les configurations à travers les itérations pour équilibrer l'exploration et l'exploitation, optimisant ainsi l'efficacité de l'auto-amélioration en fonction du modèle de politique actuel et des récompenses disponibles. Nos expériences sur le raisonnement mathématique, le codage et le raisonnement de bon sens démontrent que B-STaR améliore non seulement les capacités exploratoires du modèle tout au long de l'entraînement, mais atteint également un équilibre plus efficace entre l'exploration et l'exploitation, conduisant à des performances supérieures.
English
In the absence of extensive human-annotated data for complex reasoning tasks,
self-improvement -- where models are trained on their own outputs -- has
emerged as a primary method for enhancing performance. However, the critical
factors underlying the mechanism of these iterative self-improving methods
remain poorly understood, such as under what conditions self-improvement is
effective, and what are the bottlenecks in the current iterations. In this
work, we identify and propose methods to monitor two pivotal factors in this
iterative process: (1) the model's ability to generate sufficiently diverse
responses (exploration); and (2) the effectiveness of external rewards in
distinguishing high-quality candidates from lower-quality ones (exploitation).
Using mathematical reasoning as a case study, we begin with a quantitative
analysis to track the dynamics of exploration and exploitation, discovering
that a model's exploratory capabilities rapidly deteriorate over iterations,
and the effectiveness of exploiting external rewards diminishes as well.
Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning
framework that autonomously adjusts configurations across iterations to Balance
exploration and exploitation, thereby optimizing the self-improving
effectiveness based on the current policy model and available rewards. Our
experiments on mathematical reasoning, coding, and commonsense reasoning
demonstrate that B-STaR not only enhances the model's exploratory capabilities
throughout training but also achieves a more effective balance between
exploration and exploitation, leading to superior performance.Summary
AI-Generated Summary