B-STaR: Monitoreo y Equilibrio de la Exploración y Explotación en Razonadores Autodidactas
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
December 23, 2024
Autores: Weihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He
cs.AI
Resumen
En ausencia de datos extensos anotados por humanos para tareas de razonamiento complejo, la auto-mejora, donde los modelos se entrenan con sus propias salidas, ha surgido como un método principal para mejorar el rendimiento. Sin embargo, los factores críticos subyacentes al mecanismo de estos métodos iterativos de auto-mejora siguen siendo poco comprendidos, como en qué condiciones la auto-mejora es efectiva y cuáles son los cuellos de botella en las iteraciones actuales. En este trabajo, identificamos y proponemos métodos para monitorear dos factores fundamentales en este proceso iterativo: (1) la capacidad del modelo para generar respuestas lo suficientemente diversas (exploración); y (2) la efectividad de las recompensas externas para distinguir candidatos de alta calidad de aquellos de menor calidad (explotación). Utilizando el razonamiento matemático como estudio de caso, comenzamos con un análisis cuantitativo para rastrear la dinámica de la exploración y explotación, descubriendo que las capacidades exploratorias de un modelo se deterioran rápidamente a lo largo de las iteraciones, y la efectividad de explotar recompensas externas también disminuye. Motivados por estos hallazgos, presentamos B-STaR, un marco de Razonamiento Autoenseñado que ajusta automáticamente las configuraciones a lo largo de las iteraciones para equilibrar la exploración y explotación, optimizando así la efectividad de la auto-mejora basada en el modelo de política actual y las recompensas disponibles. Nuestros experimentos en razonamiento matemático, codificación y razonamiento de sentido común demuestran que B-STaR no solo mejora las capacidades exploratorias del modelo durante todo el entrenamiento, sino que también logra un equilibrio más efectivo entre exploración y explotación, lo que conduce a un rendimiento superior.
English
In the absence of extensive human-annotated data for complex reasoning tasks,
self-improvement -- where models are trained on their own outputs -- has
emerged as a primary method for enhancing performance. However, the critical
factors underlying the mechanism of these iterative self-improving methods
remain poorly understood, such as under what conditions self-improvement is
effective, and what are the bottlenecks in the current iterations. In this
work, we identify and propose methods to monitor two pivotal factors in this
iterative process: (1) the model's ability to generate sufficiently diverse
responses (exploration); and (2) the effectiveness of external rewards in
distinguishing high-quality candidates from lower-quality ones (exploitation).
Using mathematical reasoning as a case study, we begin with a quantitative
analysis to track the dynamics of exploration and exploitation, discovering
that a model's exploratory capabilities rapidly deteriorate over iterations,
and the effectiveness of exploiting external rewards diminishes as well.
Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning
framework that autonomously adjusts configurations across iterations to Balance
exploration and exploitation, thereby optimizing the self-improving
effectiveness based on the current policy model and available rewards. Our
experiments on mathematical reasoning, coding, and commonsense reasoning
demonstrate that B-STaR not only enhances the model's exploratory capabilities
throughout training but also achieves a more effective balance between
exploration and exploitation, leading to superior performance.Summary
AI-Generated Summary