DiffusionOPD: Una Perspectiva Unificada de la Destilación On-Policy en Modelos de Difusión

Resumen

El aprendizaje por refuerzo se ha convertido en una herramienta poderosa para mejorar los modelos de difusión de texto a imagen, pero los métodos existentes se limitan en gran medida a la optimización de una sola tarea. Extender el RL a múltiples tareas es un desafío: la optimización conjunta sufre de interferencia entre tareas y desequilibrio, mientras que el RL en cascada es engorroso y propenso al olvido catastrófico. Proponemos DiffusionOPD, un nuevo paradigma de entrenamiento multitarea para modelos de difusión basado en Destilación de Políticas en Línea (OPD, por sus siglas en inglés). DiffusionOPD primero entrena profesores específicos por tarea de forma independiente y luego destila sus capacidades en un estudiante unificado a lo largo de las trayectorias de simulación propias del estudiante. Esto desacopla la exploración de tarea única de la integración multitarea y evita la carga de optimización de resolver todas las tareas conjuntamente desde cero. Teóricamente, extendemos el marco OPD de tokens discretos a procesos de Markov de estado continuo, derivando un objetivo KL por paso de forma cerrada que unifica tanto el refinamiento mediante SDE estocástico como mediante EDO determinista a través de la coincidencia de medias. Demostramos formal y empíricamente que este gradiente analítico proporciona menor varianza y mejor generalidad en comparación con los gradientes de política estilo PPO convencionales. Experimentos exhaustivos muestran que DiffusionOPD supera consistentemente tanto las líneas base de RL de recompensa múltiple como las de RL en cascada en eficiencia de entrenamiento y rendimiento final, logrando resultados de última generación en todos los puntos de referencia evaluados.

English

Reinforcement learning has emerged as a powerful tool for improving diffusion-based text-to-image models, but existing methods are largely limited to single-task optimization. Extending RL to multiple tasks is challenging: joint optimization suffers from cross-task interference and imbalance, while cascade RL is cumbersome and prone to catastrophic forgetting. We propose DiffusionOPD, a new multi-task training paradigm for diffusion models based on Online Policy Distillation (OPD). DiffusionOPD first trains task-specific teachers independently, then distills their capabilities into a unified student along the student own rollout trajectories. This decouples single-task exploration from multi-task integration and avoids the optimization burden of solving all tasks jointly from scratch. Theoretically, we lift the OPD framework from discrete tokens to continuous-state Markov processes, deriving a closed-form per-step KL objective that unifies both stochastic SDE and deterministic ODE refinement via mean-matching. We formally and empirically demonstrate that this analytic gradient provides lower variance and better generality compared to conventional PPO-style policy gradients. Extensive experiments show that DiffusionOPD consistently surpasses both multi-reward RL and cascade RL baselines in training efficiency and final performance, while achieving state-of-the-art results on all evaluated benchmarks.