Auto-Addestramento con Rinforzo per la Rimozione della Ridondanza Visiva

Abstract

La distillazione on-policy (OPD) è diventata un paradigma di addestramento popolare nella comunità dei LLM. Questo paradigma seleziona un modello più grande come insegnante per fornire segnali densi e granulari per ogni traiettoria campionata, in contrasto con l'apprendimento per rinforzo con ricompense verificabili (RLVR), che ottiene solo segnali sparsi da risultati verificabili nell'ambiente. Recentemente, la comunità ha esplorato l'auto-distillazione on-policy (OPSD), in cui lo stesso modello funge sia da insegnante che da studente, con l'insegnante che riceve informazioni privilegiate aggiuntive, come risposte di riferimento, per consentire l'auto-evoluzione. Questo articolo dimostra che i segnali di apprendimento derivati esclusivamente dall'insegnante privilegiato risultano in una grave dispersione di informazioni e in un addestramento a lungo termine instabile. Di conseguenza, identifichiamo la nicchia ottimale per l'auto-distillazione e proponiamo RLSD (RLVR con Auto-Distillazione). Nello specifico, sfruttiamo l'auto-distillazione per ottenere differenze di policy a livello di token per determinare le magnitudini di aggiornamento granulari, continuando a utilizzare l'RLVR per derivare direzioni di aggiornamento affidabili dal feedback ambientale (ad esempio, la correttezza della risposta). Ciò consente a RLSD di sfruttare simultaneamente i punti di forza sia di RLVR che di OPSD, raggiungendo un limite di convergenza più elevato e una stabilità di addestramento superiore.

English

On-policy distillation (OPD) has become a popular training paradigm in the LLM community. This paradigm selects a larger model as the teacher to provide dense, fine-grained signals for each sampled trajectory, in contrast to reinforcement learning with verifiable rewards (RLVR), which only obtains sparse signals from verifiable outcomes in the environment. Recently, the community has explored on-policy self-distillation (OPSD), where the same model serves as both teacher and student, with the teacher receiving additional privileged information such as reference answers to enable self-evolution. This paper demonstrates that learning signals solely derived from the privileged teacher result in severe information leakage and unstable long-term training. Accordingly, we identify the optimal niche for self-distillation and propose RLSD (RLVR with Self-Distillation). Specifically, we leverage self-distillation to obtain token-level policy differences for determining fine-grained update magnitudes, while continuing to use RLVR to derive reliable update directions from environmental feedback (e.g., response correctness). This enables RLSD to simultaneously harness the strengths of both RLVR and OPSD, achieving a higher convergence ceiling and superior training stability.

Auto-Addestramento con Rinforzo per la Rimozione della Ridondanza Visiva

Self-Distilled RLVR

Abstract

Support