Jusqu'où l'apprentissage par renforcement non supervisé (RLVR) peut-il étendre l'entraînement des modèles de langage de grande taille (LLM) ?

Résumé

L'apprentissage par renforcement non supervisé avec récompenses vérifiables (URLVR) offre une voie pour dépasser les limites de la supervision dans l'entraînement des grands modèles de langage en générant des récompenses sans vérité terrain. Les travaux récents exploitent des signaux intrinsèques au modèle, montrant des gains initiaux prometteurs, mais leur potentiel et leurs limites restent flous. Dans cette étude, nous revisitons l'URLVR et proposons une analyse complète couvrant taxonomie, théorie et expérimentations extensives. Nous classons d'abord les méthodes URLVR en intrinsèques versus externes selon leurs sources de récompenses, puis établissons un cadre théorique unifié révélant que toutes les méthodes intrinsèques convergent vers un resserrement de la distribution initiale du modèle. Ce mécanisme de resserrement réussit lorsque la confiance initiale correspond à la justesse, mais échoue catastrophiquement en cas de divergence. Par des expériences systématiques, nous montrons que les récompenses intrinsèques suivent constamment un schéma de croissance puis déclin, le moment de l'effondrement étant déterminé par l'a priori du modèle plutôt que par des choix techniques. Malgré ces limites d'échelle, les récompenses intrinsèques restent utiles pour l'entraînement en temps de test sur de petits jeux de données. Nous proposons l'Étape d'Effondrement du Modèle pour mesurer l'a priori du modèle, servant d'indicateur pratique de la capacité d'entraînement par RL. Enfin, nous explorons les méthodes à récompenses externes qui ancrent la vérification dans des asymétries computationnelles, montrant des preuves préliminaires qu'elles pourraient dépasser le plafond confiance-justesse. Nos résultats délimitent les frontières de l'URLVR intrinsèque tout en ouvrant des pistes vers des alternatives évolutives.

English

Unsupervised reinforcement learning with verifiable rewards (URLVR) offers a pathway to scale LLM training beyond the supervision bottleneck by deriving rewards without ground truth labels. Recent works leverage model intrinsic signals, showing promising early gains, yet their potential and limitations remain unclear. In this work, we revisit URLVR and provide a comprehensive analysis spanning taxonomy, theory and extensive experiments. We first classify URLVR methods into intrinsic versus external based on reward sources, then establish a unified theoretical framework revealing that all intrinsic methods converge toward sharpening the model's initial distribution This sharpening mechanism succeeds when initial confidence aligns with correctness but fails catastrophically when misaligned. Through systematic experiments, we show intrinsic rewards consistently follow a rise-then-fall pattern across methods, with collapse timing determined by model prior rather than engineering choices. Despite these scaling limits, we find intrinsic rewards remain valuable in test-time training on small datasets, and propose Model Collapse Step to measure model prior, serving as a practical indicator for RL trainability. Finally, we explore external reward methods that ground verification in computational asymmetries, showing preliminary evidence they may escape the confidence-correctness ceiling. Our findings chart boundaries for intrinsic URLVR while motivating paths toward scalable alternatives.

Jusqu'où l'apprentissage par renforcement non supervisé (RLVR) peut-il étendre l'entraînement des modèles de langage de grande taille (LLM) ?

How Far Can Unsupervised RLVR Scale LLM Training?

Résumé

Support