Impulsionando o Aprendizado por Reforço com Recompensas Verificáveis por meio de Orientação Few-Shot Selecionada Aleatoriamente

Resumo

Aprendizado por Reforço com Recompensas Verificáveis (RLVR) alcançou grande sucesso no desenvolvimento de Grandes Modelos de Linguagem (LLMs) com rollouts de cadeia de pensamento para muitas tarefas, como matemática e programação. No entanto, o RLVR enfrenta dificuldades com eficiência amostral em problemas difíceis onde rollouts corretos são difíceis de gerar. Trabalhos anteriores propõem abordar esse problema por meio de RLVR guiado por demonstrações, ou seja, realizar Ajuste Fino Supervisionado (SFT) quando o RL falha; contudo, o SFT frequentemente requer muitos dados, o que pode ser caro de adquirir. Neste artigo, propomos o FEST, um algoritmo de RLVR guiado por demonstrações com poucos exemplos (Few-Shot). Ele obtém resultados impressionantes com apenas 128 demonstrações selecionadas aleatoriamente de um conjunto de dados SFT. Descobrimos que três componentes são vitais para o sucesso: sinal supervisionado, sinal on-policy e pesos decrescentes no conjunto de dados SFT de poucos exemplos para evitar overfitting do treinamento de múltiplas épocas. Em vários benchmarks, o FEST supera as linhas de base com magnitudes menores de dados SFT, até mesmo igualando seu desempenho com o conjunto de dados completo.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.