Quanto Può Spingersi l'Addestramento di LLM con RLVR Non Supervisionato?

Abstract

L'apprendimento per rinforzo non supervisionato con ricompense verificabili (URLVR) offre un percorso per scalare l'addestramento di LLM oltre il collo di bottiglia della supervisione, derivando le ricompense senza etichette di ground truth. I lavori recenti sfruttano segnali intrinseci del modello, mostrando promettenti guadagni iniziali, ma il loro potenziale e le loro limitazioni rimangono poco chiari. In questo lavoro, esaminiamo nuovamente l'URLVR e forniamo un'analisi completa che abbraccia tassonomia, teoria ed esperimenti estensivi. Classifichiamo prima i metodi URLVR in intrinseci versus esterni in base alle fonti di ricompensa, per poi stabilire un quadro teorico unificato che rivela come tutti i metodi intrinseci convergano verso l'*affinamento* della distribuzione iniziale del modello. Questo meccanismo di affinamento ha successo quando la fiducia iniziale è allineata con la correttezza, ma fallisce in modo catastrofico quando non lo è. Attraverso esperimenti sistematici, mostriamo che le ricompense intrinseche seguono costantemente uno schema di *ascesa e poi caduta* tra i vari metodi, con il momento del collasso determinato dal *prior* del modello piuttosto che da scelte ingegneristiche. Nonostante questi limiti di scalabilità, troviamo che le ricompense intrinseche rimangono preziose nell'addestramento al momento del test su piccoli dataset, e proponiamo il *Model Collapse Step* per misurare il prior del modello, servendo come indicatore pratico per l'addestrabilità RL. Infine, esploriamo metodi a ricompensa esterna che ancorano la verifica a asimmetrie computazionali, mostrando evidenze preliminari del fatto che possano superare il limite fiducia-correttezza. I nostri risultati delineano i confini per l'URLVR intrinseco motivando al contempo percorsi verso alternative scalabili.

English

Unsupervised reinforcement learning with verifiable rewards (URLVR) offers a pathway to scale LLM training beyond the supervision bottleneck by deriving rewards without ground truth labels. Recent works leverage model intrinsic signals, showing promising early gains, yet their potential and limitations remain unclear. In this work, we revisit URLVR and provide a comprehensive analysis spanning taxonomy, theory and extensive experiments. We first classify URLVR methods into intrinsic versus external based on reward sources, then establish a unified theoretical framework revealing that all intrinsic methods converge toward sharpening the model's initial distribution This sharpening mechanism succeeds when initial confidence aligns with correctness but fails catastrophically when misaligned. Through systematic experiments, we show intrinsic rewards consistently follow a rise-then-fall pattern across methods, with collapse timing determined by model prior rather than engineering choices. Despite these scaling limits, we find intrinsic rewards remain valuable in test-time training on small datasets, and propose Model Collapse Step to measure model prior, serving as a practical indicator for RL trainability. Finally, we explore external reward methods that ground verification in computational asymmetries, showing preliminary evidence they may escape the confidence-correctness ceiling. Our findings chart boundaries for intrinsic URLVR while motivating paths toward scalable alternatives.

Quanto Può Spingersi l'Addestramento di LLM con RLVR Non Supervisionato?

How Far Can Unsupervised RLVR Scale LLM Training?

Abstract

Support