Aprendizaje por Refuerzo mediante Auto-Destilación

Resumen

Los modelos de lenguaje a gran escala son cada vez más sometidos a post-entrenamiento con aprendizaje por refuerzo en dominios verificables como el código y las matemáticas. Sin embargo, los métodos actuales de aprendizaje por refuerzo con recompensas verificables (RLVR, por sus siglas en inglés) aprenden únicamente a partir de una recompensa escalar de resultado por intento, lo que crea un severo cuello de botella en la asignación de crédito. Muchos entornos verificables proporcionan, en realidad, retroalimentación textual enriquecida, como errores de tiempo de ejecución o evaluaciones de un juez, que explican por qué un intento falló. Formalizamos este escenario como aprendizaje por refuerzo con retroalimentación enriquecida e introducimos la Optimización de Políticas por Auto-Destilación (SDPO), que convierte la retroalimentación tokenizada en una señal de aprendizaje densa sin necesidad de un profesor externo o un modelo de recompensa explícito. SDPO trata al modelo actual condicionado por la retroalimentación como un auto-profesor y destila sus predicciones de siguiente token, informadas por la retroalimentación, de vuelta a la política. De esta manera, SDPO aprovecha la capacidad del modelo para identificar retrospectivamente sus propios errores en contexto. En tareas de razonamiento científico, uso de herramientas y programación competitiva en LiveCodeBench v6, SDPO mejora la eficiencia muestral y la precisión final en comparación con sólidos modelos de referencia de RLVR. Notablemente, SDPO también supera a los modelos de referencia en entornos RLVR estándar que solo devuelven retroalimentación escalar, utilizando para ello las ejecuciones exitosas como retroalimentación implícita para los intentos fallidos. Finalmente, aplicar SDPO a preguntas individuales en tiempo de prueba acelera el descubrimiento en tareas difíciles con recompensa binaria, logrando la misma probabilidad de descubrimiento que el muestreo del mejor de k o las conversaciones multiturno, pero con 3 veces menos intentos.

English

Large language models are increasingly post-trained with reinforcement learning in verifiable domains such as code and math. Yet, current methods for reinforcement learning with verifiable rewards (RLVR) learn only from a scalar outcome reward per attempt, creating a severe credit-assignment bottleneck. Many verifiable environments actually provide rich textual feedback, such as runtime errors or judge evaluations, that explain why an attempt failed. We formalize this setting as reinforcement learning with rich feedback and introduce Self-Distillation Policy Optimization (SDPO), which converts tokenized feedback into a dense learning signal without any external teacher or explicit reward model. SDPO treats the current model conditioned on feedback as a self-teacher and distills its feedback-informed next-token predictions back into the policy. In this way, SDPO leverages the model's ability to retrospectively identify its own mistakes in-context. Across scientific reasoning, tool use, and competitive programming on LiveCodeBench v6, SDPO improves sample efficiency and final accuracy over strong RLVR baselines. Notably, SDPO also outperforms baselines in standard RLVR environments that only return scalar feedback by using successful rollouts as implicit feedback for failed attempts. Finally, applying SDPO to individual questions at test time accelerates discovery on difficult binary-reward tasks, achieving the same discovery probability as best-of-k sampling or multi-turn conversations with 3x fewer attempts.

Aprendizaje por Refuerzo mediante Auto-Destilación

Reinforcement Learning via Self-Distillation

Resumen

Support