Potenciando el Aprendizaje por Refuerzo con Recompensas Verificables mediante una Guía Few-Shot Seleccionada Aleatoriamente

Resumen

El aprendizaje por refuerzo con recompensas verificables (RLVR) ha logrado un gran éxito en el desarrollo de modelos de lenguaje de gran escala (LLMs) mediante despliegues de cadena de pensamiento para tareas como matemáticas y programación. No obstante, el RLVR enfrenta dificultades en cuanto a la eficiencia de muestra en problemas complejos donde generar despliegues correctos resulta complicado. Trabajos previos proponen abordar este problema mediante RLVR guiado por demostraciones, es decir, realizar un ajuste fino supervisado (SFT) cuando el RL falla; sin embargo, el SFT a menudo requiere una gran cantidad de datos, cuya adquisición puede ser costosa. En este artículo, proponemos FEST, un algoritmo de RLVR guiado por demostraciones de pocos ejemplos (Few-Shot). Logra resultados convincentes con solo 128 demostraciones seleccionadas aleatoriamente de un conjunto de datos de SFT. Descubrimos que tres componentes son vitales para el éxito: la señal supervisada, la señal dentro de la política (on-policy) y los pesos decrecientes en el conjunto de datos de SFT de pocos ejemplos para prevenir el sobreajuste durante el entrenamiento de múltiples épocas. En varios puntos de referencia, FEST supera a las líneas base con una cantidad de datos de SFT significativamente menor, incluso igualando su rendimiento cuando se utiliza el conjunto de datos completo.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.