Apprentissage par renforcement à partir de rétroactions riches avec DAgger distributionnel

Résumé

Les modèles de raisonnement ont progressé rapidement, mais la recette dominante de l'apprentissage par renforcement à partir de récompenses vérifiables (RLVR) reste étonnamment étroite : échantillonner de nombreuses réponses et récompenser chacune avec un seul bit indiquant si la réponse finale est correcte. Pourtant, de nombreux contextes fournissent un retour d'information riche, incluant des traces d'exécution, des sorties d'outils, des corrections d'experts et des auto-évaluations du modèle. Nous étudions comment utiliser un tel retour d'information à travers une variante distributionnelle de l'algorithme classique d'apprentissage par imitation DAgger, où l'apprenant a un accès local à une distribution experte sur les états visités par la politique courante. Cela donne un objectif simple d'entropie croisée directe qui admet un expert en boîte noire et dont le gradient au niveau de la séquence {effectue un riche assignement de crédit en propageant} le futur désaccord expert-étudiant vers les décisions antérieures. Nous montrons que les approches antérieures de renforcement avec des objectifs d'auto-distillation basés sur la KL inverse ou la divergence de Jensen-Shannon ne garantissent pas une amélioration monotone de la politique : même lorsque l'expert obtient une récompense plus élevée, leurs mises à jour peuvent augmenter la probabilité d'actions pires. En revanche, nous montrons que l'entropie croisée directe permet une amélioration monotone de la politique et bénéficie de garanties sur le regret. Nous montrons en outre que notre objectif optimise une borne inférieure de la vraisemblance pondérée par l'enseignant du succès, conduisant à une amélioration du Pass@N. Empiriquement, notre approche, DistIL, surpasse les méthodes de référence RLVR et RL avec auto-distillation dans divers domaines : raisonnement scientifique, codage et résolution de problèmes mathématiques difficiles.

English

Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.