B-STaR: Мониторинг и балансировка исследования и эксплуатации в самообучающихся рассудителях
B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners
December 23, 2024
Авторы: Weihao Zeng, Yuzhen Huang, Lulu Zhao, Yijun Wang, Zifei Shan, Junxian He
cs.AI
Аннотация
В отсутствие обширных данных, размеченных людьми, для сложных задач рассуждения самоусовершенствование - когда модели обучаются на своих собственных выводах - стало основным методом повышения производительности. Однако критические факторы, лежащие в основе механизма этих итеративных методов самоусовершенствования, остаются плохо понятыми, такие как в каких условиях самоусовершенствование эффективно и каковы узкие места в текущих итерациях. В данной работе мы выявляем и предлагаем методы для мониторинга двух ключевых факторов в этом итеративном процессе: (1) способность модели генерировать достаточно разнообразные ответы (исследование); и (2) эффективность внешних вознаграждений в различении кандидатов высокого качества от менее качественных (эксплуатация). Используя математическое рассуждение в качестве кейс-стади, мы начинаем с количественного анализа для отслеживания динамики исследования и эксплуатации, обнаруживая, что способности модели к исследованию быстро ухудшаются с течением времени, и эффективность использования внешних вознаграждений также уменьшается. Вдохновленные этими результатами, мы представляем B-STaR, фреймворк для самообучения рассуждения, который автономно корректирует конфигурации на протяжении итераций для балансировки исследования и эксплуатации, тем самым оптимизируя эффективность самоусовершенствования на основе текущей политики модели и доступных вознаграждений. Наши эксперименты по математическому рассуждению, программированию и здравому смыслу демонстрируют, что B-STaR не только улучшает способности модели к исследованию на протяжении обучения, но также достигает более эффективного баланса между исследованием и эксплуатацией, что приводит к превосходной производительности.
English
In the absence of extensive human-annotated data for complex reasoning tasks,
self-improvement -- where models are trained on their own outputs -- has
emerged as a primary method for enhancing performance. However, the critical
factors underlying the mechanism of these iterative self-improving methods
remain poorly understood, such as under what conditions self-improvement is
effective, and what are the bottlenecks in the current iterations. In this
work, we identify and propose methods to monitor two pivotal factors in this
iterative process: (1) the model's ability to generate sufficiently diverse
responses (exploration); and (2) the effectiveness of external rewards in
distinguishing high-quality candidates from lower-quality ones (exploitation).
Using mathematical reasoning as a case study, we begin with a quantitative
analysis to track the dynamics of exploration and exploitation, discovering
that a model's exploratory capabilities rapidly deteriorate over iterations,
and the effectiveness of exploiting external rewards diminishes as well.
Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning
framework that autonomously adjusts configurations across iterations to Balance
exploration and exploitation, thereby optimizing the self-improving
effectiveness based on the current policy model and available rewards. Our
experiments on mathematical reasoning, coding, and commonsense reasoning
demonstrate that B-STaR not only enhances the model's exploratory capabilities
throughout training but also achieves a more effective balance between
exploration and exploitation, leading to superior performance.Summary
AI-Generated Summary