PBSD: Privilegierte Bayessche Selbst-Destillation für die Kreditzuweisung über lange Horizonte

Zusammenfassung

Langfristige agentische Aufgaben stellen ein fundamentales Kreditzuweisungsproblem für ergebnisbasierte Verstärkungslernverfahren dar: Belohnungen auf Trajektorienebene überprüfen die finale Korrektheit, liefern jedoch nur begrenzte Hinweise darauf, welche Zwischenschritte der Argumentation oder Werkzeuginteraktionen zum Ergebnis beitragen. Die Schwierigkeit ist besonders ausgeprägt bei mehrschrittigen Suchagenten, bei denen erfolgreiche Trajektorien irreführende Aktionen enthalten können und fehlgeschlagene Trajektorien wertvolle beweissammelnde Schritte enthalten können. Wir schlagen PBSD (Privileged Bayesian Self-Distillation) vor, eine Bayes-kalibrierte Selbst-Destillationsmethode für feinkörnige Kreditzuweisung unter spärlichen Endbelohnungen. PBSD misst die Trajektorienqualität durch das Posterior-zu-Prior-Wahrscheinlichkeitsverhältnis der überprüften Antwort und wendet die Bayes-Regel an, um dieses schwer zu schätzende antwortseitige Verhältnis in ein handhabbares Likelihood-Verhältnis zwischen einem Standard-Schülermodell und einem priviligierten, antwortbedingten Lehrermodell zu überführen. Die autoregressive Zerlegung dieses Bayesschen Evidenzwerts liefert Signale auf Zug-Ebene, die identifizieren, ob jeder Zwischenschritt das überprüfte Ergebnis unterstützt oder untergräbt. Folglich bietet PBSD ein prinzipielles und elegantes Umgewichtungsschema, das spärliche Ergebnisüberwachung in Bayes-kalibrierte Kreditsignale auf Zug-Ebene transformiert, während es vollständig mit der Standard-Policy-Optimierung kompatibel ist. Experimente zeigen, dass PBSD die Leistung sowohl in domäneninternen als auch in domänenübergreifenden Umgebungen konsistent verbessert und effektiv Wissen vom Training mit kurzem Kontext zur Inferenz mit langem Kontext überträgt, was darauf hindeutet, dass sein feinkörniger Kreditzuweisungsmechanismus ein effektiveres Policylernen ermöglicht und eine verbesserte Generalisierung bewirkt.

English

Long-horizon agentic tasks pose a fundamental credit assignment challenge for outcome-base reinforcement learning: trajectory-level rewards verify final correctness but provide limited guidance on which intermediate reasoning steps or tool interactions contribute to the outcome. The difficulty is especially pronounced in multi-turn search agents, where successful trajectories may contain misleading actions and failed trajectories may contain valuable evidence-gathering steps. We propose PBSD (Privileged Bayesian Self-Distillation), a Bayes-calibrated self-distillation method for fine-grained credit assignment under sparse final rewards. PBSD measures trajectory quality through the posterior-to-prior probability ratio of the verified answer and applies Bayes' rule to convert this hard-to-estimate answer-side ratio into a tractable likelihood ratio between a standard student model and a privileged answer-conditioned teacher model. Autoregressive decomposition of this Bayesian evidence score yields turn-level signals that identify whether each intermediate turn supports or undermines the verified outcome. Consequently, PBSD provides a principled and elegant reweighting scheme that transforms sparse outcome supervision into Bayes-calibrated turn-level credit signals, while remaining fully compatible with standard policy optimization. Experiments demonstrate that PBSD consistently enhances performance across both in-domain and out-of-domain settings, and effectively transfers knowledge from short-context training to long-context inference, suggesting that its fine-grained credit assignment mechanism facilitates more effective policy learning and yields improved generalization.