Hoe Ver Kan Ongesuperviseerd RLVR de Training van LLM's Opschalen?

Samenvatting

Onbewaakt reinforcement learning met verifieerbare beloningen (URLVR) biedt een weg om de training van grote taalmodelen voorbij het toezichtknelpunt op te schalen door beloningen af te leiden zonder grondwaarheid-labels. Recente onderzoeken benutten intrinsieke modelsignalen en tonen veelbelovende vroege resultaten, maar hun potentieel en beperkingen blijven onduidelijk. In dit werk herbezien we URLVR en presenteren een uitgebreide analyse die taxonomie, theorie en uitgebreide experimenten omvat. We classificeren URLVR-methoden eerst als intrinsiek versus extern op basis van hun beloningsbronnen, en stellen vervolgens een verenigd theoretisch kader op dat onthult dat alle intrinsieke methoden convergeren naar een verscherping van de initiële verdeling van het model. Dit verscherpingsmechanisme slaagt wanneer initieel vertrouwen overeenkomt met correctheid, maar faalt catastrofaal bij een mismatch. Door middel van systematische experimenten tonen we aan dat intrinsieke beloningen consequent een stijgend-dan-dalend patroon volgen across methoden, waarbij het tijdstip van instorting wordt bepaald door de modelprior in plaats van technische keuzes. Ondanks deze schaalbeperkingen blijken intrinsieke beloningen waardevol te blijven bij test-time training op kleine datasets, en we stellen de Modelinstortingsstap voor om de modelprior te meten, als praktische indicator voor RL-trainbaarheid. Ten slotte verkennen we externe beloningsmethoden die verificatie verankeren in computationele asymmetrieën, waarbij eerste aanwijzingen suggereren dat ze het vertrouwen-correctheid-plafond mogelijk kunnen ontlopen. Onze bevindingen schetsen grenzen voor intrinsieke URLVR en wijzen tegelijkertijd wegen naar schaalbare alternatieven.

English

Unsupervised reinforcement learning with verifiable rewards (URLVR) offers a pathway to scale LLM training beyond the supervision bottleneck by deriving rewards without ground truth labels. Recent works leverage model intrinsic signals, showing promising early gains, yet their potential and limitations remain unclear. In this work, we revisit URLVR and provide a comprehensive analysis spanning taxonomy, theory and extensive experiments. We first classify URLVR methods into intrinsic versus external based on reward sources, then establish a unified theoretical framework revealing that all intrinsic methods converge toward sharpening the model's initial distribution This sharpening mechanism succeeds when initial confidence aligns with correctness but fails catastrophically when misaligned. Through systematic experiments, we show intrinsic rewards consistently follow a rise-then-fall pattern across methods, with collapse timing determined by model prior rather than engineering choices. Despite these scaling limits, we find intrinsic rewards remain valuable in test-time training on small datasets, and propose Model Collapse Step to measure model prior, serving as a practical indicator for RL trainability. Finally, we explore external reward methods that ground verification in computational asymmetries, showing preliminary evidence they may escape the confidence-correctness ceiling. Our findings chart boundaries for intrinsic URLVR while motivating paths toward scalable alternatives.

Hoe Ver Kan Ongesuperviseerd RLVR de Training van LLM's Opschalen?

How Far Can Unsupervised RLVR Scale LLM Training?

Samenvatting

Support