Amélioration de l'apprentissage par renforcement avec des récompenses vérifiables via un guidage few-shot sélectionné aléatoirement

Résumé

L'apprentissage par renforcement avec récompenses vérifiables (RLVR) a connu un grand succès dans le développement de grands modèles de langage (LLM) avec des déploiements de chaîne de pensée pour de nombreuses tâches telles que les mathématiques et le codage. Néanmoins, le RLVR peine en matière d'efficacité d'échantillonnage sur les problèmes difficiles où il est difficile de générer des déploiements corrects. Des travaux antérieurs proposent de résoudre ce problème grâce au RLVR guidé par démonstrations, c'est-à-dire en effectuant un ajustement supervisé fin (SFT) lorsque le RL échoue ; cependant, le SFT nécessite souvent beaucoup de données, dont l'acquisition peut être coûteuse. Dans cet article, nous proposons FEST, un algorithme RLVR guidé par démonstrations à faible nombre d'exemples (FEw-ShoT). Il obtient des résultats convaincants avec seulement 128 démonstrations sélectionnées aléatoirement dans un ensemble de données SFT. Nous constatons que trois composantes sont essentielles au succès : le signal supervisé, le signal on-policy et des poids décroissants sur l'ensemble de données SFT à faible nombre d'exemples pour éviter le surapprentissage lors d'un entraînement sur plusieurs époques. Sur plusieurs références, FEST surpasse les méthodes de référence avec des données SFT bien moins nombreuses, égalant même leurs performances avec l'ensemble de données complet.

English

Reinforcement Learning with Verifiable Rewards (RLVR) has achieved great success in developing Large Language Models (LLMs) with chain-of-thought rollouts for many tasks such as math and coding. Nevertheless, RLVR struggles with sample efficiency on difficult problems where correct rollouts are hard to generate. Prior works propose to address this issue via demonstration-guided RLVR, i.e., to conduct Supervised FineTuning (SFT) when RL fails; however, SFT often requires a lot of data, which can be expensive to acquire. In this paper, we propose FEST, a FEw-ShoT demonstration-guided RLVR algorithm. It attains compelling results with only 128 demonstrations randomly selected from an SFT dataset. We find that three components are vital for the success: supervised signal, on-policy signal, and decaying weights on the few-shot SFT dataset to prevent overfitting from multiple-epoch training. On several benchmarks, FEST outperforms baselines with magnitudes less SFT data, even matching their performance with full dataset.