Bestärkendes Lernen aus reichhaltigem Feedback mit Distributional DAgger

Zusammenfassung

Reasoning-Modelle haben sich rasant weiterentwickelt, doch das dominierende Rezept des Verstärkungslernens aus überprüfbaren Belohnungen (RLVR) bleibt überraschend eng gefasst: viele Antworten stichprobenartig ziehen und jede mit einem einzigen Bit belohnen, das angibt, ob die endgültige Antwort korrekt ist. Dabei bieten viele Umgebungen reichhaltiges Feedback, darunter Ausführungsabläufe, Werkzeugausgaben, Expertenkorrekturen und Modellsellbsteinschätzungen. Wir untersuchen, wie solches Feedback durch eine distributionelle Variante des klassischen Imitationslernalgorithmus DAgger genutzt werden kann, bei dem der Lernende lokalen Zugriff auf eine Expertenverteilung über die von der aktuellen Strategie besuchten Zustände hat. Dies ergibt eine einfache Vorwärts-Kreuzentropie-Zielfunktion, die einen Blackbox-Experten zulässt und deren sequenzieller Gradient durch Rückpropagation zukünftiger Experte-Schüler-Diskrepanzen zu früheren Entscheidungen eine reichhaltige Credit Assignment durchführt. Wir zeigen, dass früheres RL mit Selbst-Destillationszielen basierend auf reverse KL oder Jensen-Shannon keine monotone Strategieverbesserung garantiert: Selbst wenn der Experte eine höhere Belohnung erhält, können seine Aktualisierungen die Wahrscheinlichkeit für schlechtere Aktionen erhöhen. Im Gegensatz dazu belegen wir, dass die Vorwärts-Kreuzentropie eine monotone Strategieverbesserung ermöglicht und Garantien bezüglich des Regrets bietet. Darüber hinaus zeigen wir, dass unsere Zielfunktion eine untere Schranke der lehrergewichteten Erfolgswahrscheinlichkeit optimiert, was zu verbessertem Pass@N führt. Empirisch übertrifft unser Ansatz, DistIL, RLVR und RL mit Selbst-Destillations-Baselines in einer Vielzahl von Bereichen: wissenschaftliches Schlussfolgern, Programmieren und Lösen schwieriger mathematischer Probleme.

English

Reasoning models have advanced rapidly, but the dominant reinforcement learning from verifiable rewards (RLVR) recipe remains surprisingly narrow: sample many responses and reward each with a single bit indicating whether the final answer is correct. Yet many settings provide rich feedback, including execution traces, tool outputs, expert corrections, and model self-evaluations. We study how to use such feedback through a distributional variant of the classic imitation learning algorithm DAgger, where the learner has local access to an expert distribution on states visited by the current policy. This yields a simple forward cross-entropy objective that admits a blackbox expert and whose sequence-level gradient {conduct rich credit assignment by propagating} future expert-student disagreement back to earlier decisions. We show that prior RL with self-distillation objectives based on reverse KL or Jensen-Shannon fail to guarantee monotonic policy improvement: even when the expert has higher reward, their updates may increase probability on worse actions. In contrast, we show that forward cross-entropy admits monotonic policy improvement and enjoys guarantees on regret. We further show that our objective optimizes a lower bound on teacher-weighted likelihood of success, leading to improved Pass@N. Empirically, our approach, DistIL, improves over RLVR and RL with self-distillation baselines across a variety of domains: scientific reasoning, coding, and solving hard mathematical problems.