Versterkingsleren van Rijke Feedback met Distributionele DAgger

Samenvatting

Redeneermodellen zijn snel vooruitgegaan, maar het dominante recept voor reinforcement learning van verifieerbare beloningen (RLVR) blijft verrassend smal: veel antwoorden samplen en elk belonen met een enkele bit die aangeeft of het uiteindelijke antwoord correct is. Toch bieden veel settings rijke feedback, waaronder uitvoeringssporen, tool-outputs, correcties door experts en zelfevaluaties van het model. We bestuderen hoe dergelijke feedback te gebruiken via een distributionele variant van het klassieke imitatieleeralgoritme DAgger, waarbij de lerende lokale toegang heeft tot een expertverdeling over toestanden die door het huidige beleid worden bezocht. Dit levert een eenvoudige forward cross-entropy-doelstelling op die een blackbox-expert toelaat en waarvan de gradient op sequentieniveau {rijke credit assignment uitvoert door} toekomstige expert-student-discrepantie terug te propageren naar eerdere beslissingen. We tonen aan dat eerdere RL met zelfdistillatiedoelstellingen op basis van omgekeerde KL of Jensen-Shannon geen monotone beleidsverbetering garanderen: zelfs wanneer de expert een hogere beloning heeft, kunnen hun updates de kans op slechtere acties vergroten. Daarentegen tonen we aan dat forward cross-entropy monotone beleidsverbetering mogelijk maakt en garanties biedt op spijt (regret). We tonen verder aan dat onze doelstelling een ondergrens optimaliseert op de door de leraar gewogen kans op succes, wat leidt tot verbeterde Pass@N. Empirisch gezien verbetert onze aanpak, DistIL, ten opzichte van RLVR en RL met zelfdistillatie-baselines in een verscheidenheid aan domeinen: wetenschappelijk redeneren, coderen en het oplossen van moeilijke wiskundige problemen.

English

Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.