Leren van taalfeedback via variationele beleidsdistillatie

Samenvatting

Versterkingsleren van verifieerbare beloningen (RLVR) heeft te lijden onder schaarse uitkomstsignalen, wat leidt tot ernstige exploratieknelpunten bij complexe redeneertaken. Recente on-beleid zelf-distillatiemethoden proberen dit aan te pakken door gebruik te maken van taalfeedback om dichte, token-niveau supervisie te genereren. Deze benaderingen zijn echter afhankelijk van een vaste, passieve leraar om de feedback te interpreteren. Naarmate het studentenbeleid verbetert, bereiken de nulmeting-beoordelingscapaciteiten van de leraar een plateau, waardoor verder leren stopt. Om dit te overwinnen stellen we Variationele Beleidsdistillatie (VPD) voor, een raamwerk dat leren van taalfeedback formaliseert als een Variationeel Expectatie-Maximalisatie (EM)-probleem. VPD laat beide beleidsregels co-evolueren: in de E-stap wordt de leraar actief verfijnd op trajectuitkomsten via een adaptieve vertrouwensgebied-update, waarbij tekstuele feedback wordt vertaald naar een dynamisch verbeterde doel-tokenverdeling. In de M-stap internaliseert de student deze dichte distributionele begeleiding op zijn eigen on-beleid rollouts. Door continu het vermogen van de leraar te verbeteren om bruikbare signalen uit tekstuele kritiek te halen, overwint VPD de beperkingen van passieve distillatie. Geëvalueerd over diverse bronnen van diagnostische feedback bij wetenschappelijke redeneer- en codegeneratietaken, presteert VPD consequent beter dan zowel standaard RLVR als bestaande zelf-distillatiebaselines. Tot slot, door ons raamwerk te stress-testen op rigoureus wiskundig redeneren en koude-startregimes, belichten we de fundamentele grenzen van feedback-gestuurde zelf-distillatie in vergelijking met pure omgevingsgestuurde RL.

English

Reinforcement learning from verifiable rewards (RLVR) suffers from sparse outcome signals, creating severe exploration bottlenecks on complex reasoning tasks. Recent on-policy self-distillation methods attempt to address this by utilizing language feedback to generate dense, token-level supervision. However, these approaches rely on a fixed, passive teacher to interpret the feedback. As the student policy improves, the teacher's zero-shot assessment capabilities plateau, ultimately halting further learning. To overcome this, we propose Variational Policy Distillation (VPD), a framework that formalizes learning from language feedback as a Variational Expectation-Maximization (EM) problem. VPD co-evolves both policies: in the E-step, the teacher is actively refined on trajectory outcomes via an adaptive trust-region update, translating textual feedback into a dynamically improved target token distribution. In the M-step, the student internalizes this dense distributional guidance on its own on-policy rollouts. By continuously improving the teacher's ability to extract actionable signals from textual critique, VPD overcomes the limitations of passive distillation. Evaluated across diverse sources of diagnostic feedback on scientific reasoning and code generation tasks, VPD consistently outperforms both standard RLVR and existing self-distillation baselines. Finally, by stress-testing our framework on rigid mathematical reasoning and cold-start regimes, we illuminate the fundamental bounds of feedback-driven self-distillation compared to pure environment-driven RL.