PBSD: Bevoorrechte Bayesiaanse Zelf-Distillatie voor Lange-Horizon Krediettoewijzing

Samenvatting

Langetermijnagenttaken vormen een fundamentele uitdaging voor de toewijzing van krediet bij uitkomstgebaseerde reinforcement learning: beloningen op trajectniveau verifiëren de uiteindelijke correctheid, maar bieden beperkte aanwijzingen over welke tussenliggende redeneerstappen of toolinteracties bijdragen aan de uitkomst. De moeilijkheid is vooral uitgesproken bij multi-turn zoekagenten, waar succesvolle trajecten misleidende acties kunnen bevatten en mislukte trajecten waardevolle stappen voor het verzamelen van bewijs kunnen bevatten. Wij stellen PBSD (Geprivilegieerde Bayesiaanse Zelfdistillatie) voor, een Bayes-gekalibreerde zelfdistillatiemethode voor fijnmazige toewijzing van krediet onder schaarse eindbeloningen. PBSD meet de trajectkwaliteit via de posteriori-tot-priori waarschijnlijkheidsratio van het geverifieerde antwoord en past de regel van Bayes toe om deze moeilijk te schatten antwoordzijde ratio om te zetten in een tractabele waarschijnlijkheidsratio tussen een standaard studentmodel en een geprivilegieerd antwoord-geconditioneerd docentmodel. Autoregressieve decompositie van deze Bayesiaanse evidentiescore levert signalen op beurtniveau die identificeren of elke tussenliggende beurt de geverifieerde uitkomst ondersteunt of ondermijnt. Bijgevolg biedt PBSD een principieel en elegant herwegingsschema dat schaarse uitkomstsupervisie omzet in Bayes-gekalibreerde creditsignalen op beurtniveau, terwijl het volledig compatibel blijft met standaard beleidsoptimalisatie. Experimenten tonen aan dat PBSD consequent de prestaties verbetert in zowel binnen-domein als buiten-domein instellingen, en effectief kennis overdraagt van korte-context training naar lange-context inferentie, wat suggereert dat het fijnmazige mechanisme voor toewijzing van krediet een effectievere beleidsleren mogelijk maakt en leidt tot verbeterde generalisatie.

English

Long-horizon agentic tasks pose a fundamental credit assignment challenge for outcome-base reinforcement learning: trajectory-level rewards verify final correctness but provide limited guidance on which intermediate reasoning steps or tool interactions contribute to the outcome. The difficulty is especially pronounced in multi-turn search agents, where successful trajectories may contain misleading actions and failed trajectories may contain valuable evidence-gathering steps. We propose PBSD (Privileged Bayesian Self-Distillation), a Bayes-calibrated self-distillation method for fine-grained credit assignment under sparse final rewards. PBSD measures trajectory quality through the posterior-to-prior probability ratio of the verified answer and applies Bayes' rule to convert this hard-to-estimate answer-side ratio into a tractable likelihood ratio between a standard student model and a privileged answer-conditioned teacher model. Autoregressive decomposition of this Bayesian evidence score yields turn-level signals that identify whether each intermediate turn supports or undermines the verified outcome. Consequently, PBSD provides a principled and elegant reweighting scheme that transforms sparse outcome supervision into Bayes-calibrated turn-level credit signals, while remaining fully compatible with standard policy optimization. Experiments demonstrate that PBSD consistently enhances performance across both in-domain and out-of-domain settings, and effectively transfers knowledge from short-context training to long-context inference, suggesting that its fine-grained credit assignment mechanism facilitates more effective policy learning and yields improved generalization.