Steigerung des Verstärkungslernens mit überprüfbaren Belohnungen durch zufällig ausgewählte Few-Shot-Anleitung

Zusammenfassung

Bestärkendes Lernen mit überprüfbaren Belohnungen (RLVR) hat große Erfolge bei der Entwicklung großer Sprachmodelle (LLMs) mit Chain-of-Thought-Rollouts für viele Aufgaben wie Mathematik und Programmierung erzielt. Dennoch hat RLVR Schwierigkeiten mit der Stichprobeneffizienz bei schwierigen Problemen, bei denen korrekte Rollouts schwer zu generieren sind. Frühere Arbeiten schlagen vor, dieses Problem durch demonstrationsgestütztes RLVR zu lösen, d. h. durch überwachtes Feintuning (SFT), wenn RL scheitert; allerdings erfordert SFT oft große Datenmengen, deren Beschaffung teuer sein kann. In diesem Papier schlagen wir FEST vor, einen demonstrationsgestützten RLVR-Algorithmus mit wenigen Beispielen (Few-Shot). Er erzielt überzeugende Ergebnisse mit nur 128 zufällig aus einem SFT-Datensatz ausgewählten Demonstrationen. Wir stellen fest, dass drei Komponenten für den Erfolg entscheidend sind: das überwachte Signal, das On-Policy-Signal und fallende Gewichte auf den Few-Shot-SFT-Datensatz, um Overfitting durch mehrfaches Epochentraining zu verhindern. Auf mehreren Benchmarks übertrifft FEST Baseline-Verfahren mit deutlich weniger SFT-Daten und erreicht sogar deren Leistung mit dem vollständigen Datensatz.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.