PBSD: Autodestilación Bayesiana Privilegiada para la Asignación de Crédito a Largo Plazo

Resumen

Las tareas agentivas de largo horizonte presentan un desafío fundamental de asignación de crédito para el aprendizaje por refuerzo basado en resultados: las recompensas a nivel de trayectoria verifican la corrección final, pero ofrecen una orientación limitada sobre qué pasos intermedios de razonamiento o interacciones con herramientas contribuyen al resultado. La dificultad es especialmente pronunciada en agentes de búsqueda de múltiples turnos, donde las trayectorias exitosas pueden contener acciones engañosas y las trayectorias fallidas pueden incluir pasos valiosos de recopilación de evidencia. Proponemos PBSD (Destilación Bayesiana Privilegiada Automática), un método de autodestilación calibrado bayesianamente para la asignación de crédito a nivel fino bajo recompensas finales dispersas. PBSD mide la calidad de la trayectoria mediante la razón de probabilidades posterior a priori de la respuesta verificada y aplica la regla de Bayes para convertir esta razón del lado de la respuesta, difícil de estimar, en una razón de verosimilitud manejable entre un modelo estudiante estándar y un modelo profesor privilegiado condicionado a la respuesta. La descomposición autorregresiva de esta puntuación de evidencia bayesiana produce señales a nivel de turno que identifican si cada turno intermedio apoya o socava el resultado verificado. En consecuencia, PBSD proporciona un esquema de reponderación elegante y fundamentado que transforma la supervisión de resultados dispersa en señales de crédito a nivel de turno calibradas bayesianamente, manteniéndose completamente compatible con la optimización de políticas estándar. Los experimentos demuestran que PBSD mejora consistentemente el rendimiento tanto en entornos dentro del dominio como fuera de él, y transfiere eficazmente el conocimiento del entrenamiento en contexto corto a la inferencia en contexto largo, lo que sugiere que su mecanismo de asignación de crédito a nivel fino facilita un aprendizaje de políticas más efectivo y genera una mejor generalización.

English

Long-horizon agentic tasks pose a fundamental credit assignment challenge for outcome-base reinforcement learning: trajectory-level rewards verify final correctness but provide limited guidance on which intermediate reasoning steps or tool interactions contribute to the outcome. The difficulty is especially pronounced in multi-turn search agents, where successful trajectories may contain misleading actions and failed trajectories may contain valuable evidence-gathering steps. We propose PBSD (Privileged Bayesian Self-Distillation), a Bayes-calibrated self-distillation method for fine-grained credit assignment under sparse final rewards. PBSD measures trajectory quality through the posterior-to-prior probability ratio of the verified answer and applies Bayes' rule to convert this hard-to-estimate answer-side ratio into a tractable likelihood ratio between a standard student model and a privileged answer-conditioned teacher model. Autoregressive decomposition of this Bayesian evidence score yields turn-level signals that identify whether each intermediate turn supports or undermines the verified outcome. Consequently, PBSD provides a principled and elegant reweighting scheme that transforms sparse outcome supervision into Bayes-calibrated turn-level credit signals, while remaining fully compatible with standard policy optimization. Experiments demonstrate that PBSD consistently enhances performance across both in-domain and out-of-domain settings, and effectively transfers knowledge from short-context training to long-context inference, suggesting that its fine-grained credit assignment mechanism facilitates more effective policy learning and yields improved generalization.