B-STaR: Мониторинг и балансировка исследования и эксплуатации в самообучающихся рассудителях

Аннотация

В отсутствие обширных данных, размеченных людьми, для сложных задач рассуждения самоусовершенствование - когда модели обучаются на своих собственных выводах - стало основным методом повышения производительности. Однако критические факторы, лежащие в основе механизма этих итеративных методов самоусовершенствования, остаются плохо понятыми, такие как в каких условиях самоусовершенствование эффективно и каковы узкие места в текущих итерациях. В данной работе мы выявляем и предлагаем методы для мониторинга двух ключевых факторов в этом итеративном процессе: (1) способность модели генерировать достаточно разнообразные ответы (исследование); и (2) эффективность внешних вознаграждений в различении кандидатов высокого качества от менее качественных (эксплуатация). Используя математическое рассуждение в качестве кейс-стади, мы начинаем с количественного анализа для отслеживания динамики исследования и эксплуатации, обнаруживая, что способности модели к исследованию быстро ухудшаются с течением времени, и эффективность использования внешних вознаграждений также уменьшается. Вдохновленные этими результатами, мы представляем B-STaR, фреймворк для самообучения рассуждения, который автономно корректирует конфигурации на протяжении итераций для балансировки исследования и эксплуатации, тем самым оптимизируя эффективность самоусовершенствования на основе текущей политики модели и доступных вознаграждений. Наши эксперименты по математическому рассуждению, программированию и здравому смыслу демонстрируют, что B-STaR не только улучшает способности модели к исследованию на протяжении обучения, но также достигает более эффективного баланса между исследованием и эксплуатацией, что приводит к превосходной производительности.

English

In the absence of extensive human-annotated data for complex reasoning tasks, self-improvement -- where models are trained on their own outputs -- has emerged as a primary method for enhancing performance. However, the critical factors underlying the mechanism of these iterative self-improving methods remain poorly understood, such as under what conditions self-improvement is effective, and what are the bottlenecks in the current iterations. In this work, we identify and propose methods to monitor two pivotal factors in this iterative process: (1) the model's ability to generate sufficiently diverse responses (exploration); and (2) the effectiveness of external rewards in distinguishing high-quality candidates from lower-quality ones (exploitation). Using mathematical reasoning as a case study, we begin with a quantitative analysis to track the dynamics of exploration and exploitation, discovering that a model's exploratory capabilities rapidly deteriorate over iterations, and the effectiveness of exploiting external rewards diminishes as well. Motivated by these findings, we introduce B-STaR, a Self-Taught Reasoning framework that autonomously adjusts configurations across iterations to Balance exploration and exploitation, thereby optimizing the self-improving effectiveness based on the current policy model and available rewards. Our experiments on mathematical reasoning, coding, and commonsense reasoning demonstrate that B-STaR not only enhances the model's exploratory capabilities throughout training but also achieves a more effective balance between exploration and exploitation, leading to superior performance.

B-STaR: Мониторинг и балансировка исследования и эксплуатации в самообучающихся рассудителях

B-STaR: Monitoring and Balancing Exploration and Exploitation in Self-Taught Reasoners

Аннотация

Support