PBSD: Autodestilação Bayesiana Privilegiada para Atribuição de Crédito de Longo Horizonte
PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment
June 8, 2026
Autores: Yang Tian, Rui Wang, Xumeng Wen, Junjie Li, Shizhao Sun, Lei Song, Jiang Bian, Bo Zhao
cs.AI
Resumo
Tarefas agentivas de longo horizonte impõem um desafio fundamental de atribuição de crédito para o aprendizado por reforço baseado em resultados: recompensas em nível de trajetória verificam a correção final, mas fornecem orientação limitada sobre quais etapas intermediárias de raciocínio ou interações com ferramentas contribuem para o resultado. A dificuldade é especialmente acentuada em agentes de busca com múltiplas rodadas, onde trajetórias bem-sucedidas podem conter ações enganosas e trajetórias fracassadas podem conter etapas valiosas de coleta de evidências. Propomos o PBSD (Privileged Bayesian Self-Distillation), um método de autodestilação calibrado por Bayes para atribuição de crédito em granularidade fina sob recompensas finais esparsas. O PBSD mede a qualidade da trajetória por meio da razão de probabilidade posterior-prior da resposta verificada e aplica a regra de Bayes para converter essa razão do lado da resposta, difícil de estimar, em uma razão de verossimilhança tratável entre um modelo estudante padrão e um modelo professor privilegiado condicionado à resposta. A decomposição autorregressiva dessa pontuação de evidência bayesiana produz sinais em nível de rodada que identificam se cada rodada intermediária apoia ou prejudica o resultado verificado. Consequentemente, o PBSD fornece um esquema de re-ponderação elegante e fundamentado que transforma a supervisão esparsa de resultados em sinais de crédito em nível de rodada calibrados por Bayes, mantendo-se totalmente compatível com a otimização padrão de políticas. Experimentos demonstram que o PBSD melhora consistentemente o desempenho tanto em configurações dentro do domínio quanto fora dele, e transfere efetivamente conhecimento do treinamento com contexto curto para a inferência com contexto longo, sugerindo que seu mecanismo de atribuição de crédito em granularidade fina facilita um aprendizado de políticas mais eficaz e produz melhor generalização.
English
Long-horizon agentic tasks pose a fundamental credit assignment challenge for outcome-base reinforcement learning: trajectory-level rewards verify final correctness but provide limited guidance on which intermediate reasoning steps or tool interactions contribute to the outcome. The difficulty is especially pronounced in multi-turn search agents, where successful trajectories may contain misleading actions and failed trajectories may contain valuable evidence-gathering steps. We propose PBSD (Privileged Bayesian Self-Distillation), a Bayes-calibrated self-distillation method for fine-grained credit assignment under sparse final rewards. PBSD measures trajectory quality through the posterior-to-prior probability ratio of the verified answer and applies Bayes' rule to convert this hard-to-estimate answer-side ratio into a tractable likelihood ratio between a standard student model and a privileged answer-conditioned teacher model. Autoregressive decomposition of this Bayesian evidence score yields turn-level signals that identify whether each intermediate turn supports or undermines the verified outcome. Consequently, PBSD provides a principled and elegant reweighting scheme that transforms sparse outcome supervision into Bayes-calibrated turn-level credit signals, while remaining fully compatible with standard policy optimization. Experiments demonstrate that PBSD consistently enhances performance across both in-domain and out-of-domain settings, and effectively transfers knowledge from short-context training to long-context inference, suggesting that its fine-grained credit assignment mechanism facilitates more effective policy learning and yields improved generalization.