Het verbeteren van reinforcement learning met verifieerbare beloningen via willekeurig geselecteerde few-shot begeleiding

Samenvatting

Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft groot succes geboekt bij het ontwikkelen van Grote Taalmodellen (LLMs) met chain-of-thought rollouts voor vele taken zoals wiskunde en programmeren. Niettemin heeft RLVR moeite met monsterefficiëntie bij moeilijke problemen waar correcte rollouts moeilijk te genereren zijn. Eerder werk stelt voor om dit probleem aan te pakken via demonstratie-gestuurde RLVR, d.w.z. het uitvoeren van Supervised FineTuning (SFT) wanneer RL faalt; echter, SFT vereist vaak veel data, wat duur kan zijn om te verkrijgen. In dit artikel stellen we FEST voor, een FEw-Shot demonstratie-gestuurd RLVR-algoritme. Het behaalt overtuigende resultaten met slechts 128 willekeurig geselecteerde demonstraties uit een SFT-dataset. We vinden dat drie componenten essentieel zijn voor het succes: het gesuperviseerde signaal, het on-policy signaal, en afnemende gewichten op de few-shot SFT-dataset om overfitting door training over meerdere epochs te voorkomen. Op verschillende benchmarks presteert FEST beter dan baselines met ordes van grootte minder SFT-data, en evenaart zelfs hun prestaties met de volledige dataset.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.