Повышение эффективности обучения с подкреплением с верифицируемыми вознаграждениями с помощью случайно выбранного руководства на основе нескольких примеров

Аннотация

Обучение с подкреплением с проверяемыми наградами (RLVR) достигло больших успехов в разработке больших языковых моделей (LLM) с развертываниями цепочек мыслей для многих задач, таких как математика и программирование. Тем не менее, RLVR сталкивается с проблемами эффективности использования выборок на сложных задачах, где правильные развертывания трудно генерировать. В предыдущих работах предлагалось решать эту проблему с помощью демонстрационно-управляемого RLVR, то есть проводить контролируемую тонкую настройку (SFT), когда RL не справляется; однако SFT часто требует большого объема данных, что может быть дорогостоящим. В данной статье мы предлагаем FEST — алгоритм RLVR, управляемый демонстрациями с малым количеством примеров (Few-Shot). Он достигает убедительных результатов, используя всего 128 демонстраций, случайно отобранных из набора данных SFT. Мы обнаружили, что три компонента имеют решающее значение для успеха: сигнал с учителем, сигнал на политике и затухающие веса на набор данных SFT из нескольких примеров для предотвращения переобучения при многократном обучении. На нескольких эталонных тестах FEST превосходит базовые методы при значительно меньшем объеме данных SFT, даже достигая их производительности при использовании полного набора данных.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.