PBSD : Auto-distillation bayésienne privilégiée pour l'attribution de crédit à long horizon

Résumé

Les tâches agentiques à long horizon posent un défi fondamental d'attribution de crédit pour l'apprentissage par renforcement basé sur les résultats : les récompenses au niveau de la trajectoire vérifient l'exactitude finale mais fournissent peu d'indications sur les étapes de raisonnement intermédiaires ou les interactions avec les outils qui contribuent au résultat. La difficulté est particulièrement prononcée dans les agents de recherche multi-tours, où les trajectoires réussies peuvent contenir des actions trompeuses et les trajectoires échouées peuvent contenir des étapes précieuses de collecte de preuves. Nous proposons PBSD (Privileged Bayesian Self-Distillation), une méthode d'auto-distillation calibrée par Bayes pour une attribution de crédit fine sous récompenses finales éparses. PBSD mesure la qualité de la trajectoire par le rapport de probabilité a posteriori sur a priori de la réponse vérifiée et applique la règle de Bayes pour convertir ce rapport côté réponse difficile à estimer en un rapport de vraisemblance tractable entre un modèle étudiant standard et un modèle enseignant privilégié conditionné par la réponse. Une décomposition autorégressive de ce score de preuve bayésien génère des signaux au niveau du tour qui identifient si chaque tour intermédiaire soutient ou nuit au résultat vérifié. Par conséquent, PBSD fournit un schéma de repondération élégant et fondé sur des principes qui transforme la supervision éparse des résultats en signaux de crédit au niveau du tour calibrés par Bayes, tout en restant pleinement compatible avec l'optimisation de politique standard. Les expériences démontrent que PBSD améliore systématiquement les performances dans des contextes intra-domaine et hors domaine, et transfère efficacement les connaissances d'un entraînement en contexte court à une inférence en contexte long, suggérant que son mécanisme d'attribution de crédit fine facilite un apprentissage de politique plus efficace et conduit à une meilleure généralisation.

English

Long-horizon agentic tasks pose a fundamental credit assignment challenge for outcome-base reinforcement learning: trajectory-level rewards verify final correctness but provide limited guidance on which intermediate reasoning steps or tool interactions contribute to the outcome. The difficulty is especially pronounced in multi-turn search agents, where successful trajectories may contain misleading actions and failed trajectories may contain valuable evidence-gathering steps. We propose PBSD (Privileged Bayesian Self-Distillation), a Bayes-calibrated self-distillation method for fine-grained credit assignment under sparse final rewards. PBSD measures trajectory quality through the posterior-to-prior probability ratio of the verified answer and applies Bayes' rule to convert this hard-to-estimate answer-side ratio into a tractable likelihood ratio between a standard student model and a privileged answer-conditioned teacher model. Autoregressive decomposition of this Bayesian evidence score yields turn-level signals that identify whether each intermediate turn supports or undermines the verified outcome. Consequently, PBSD provides a principled and elegant reweighting scheme that transforms sparse outcome supervision into Bayes-calibrated turn-level credit signals, while remaining fully compatible with standard policy optimization. Experiments demonstrate that PBSD consistently enhances performance across both in-domain and out-of-domain settings, and effectively transfers knowledge from short-context training to long-context inference, suggesting that its fine-grained credit assignment mechanism facilitates more effective policy learning and yields improved generalization.