Flash-GRPO: Alineación eficiente para la difusión de video mediante optimización de políticas en un solo paso

Resumen

La Optimización Relativa de Políticas de Grupo (Group Relative Policy Optimization, GRPO) se ha vuelto esencial para alinear modelos de difusión de video con preferencias humanas, pero enfrenta un cuello de botella computacional crítico: entrenar un modelo de 14B parámetros normalmente requiere cientos de días de GPU por experimento. Los métodos de eficiencia existentes reducen los costos mediante el submuestreo de ventana deslizante de los pasos de entrenamiento temporales, pero comprometen fundamentalmente la optimización, presentando una inestabilidad severa y sin alcanzar el rendimiento completo de la trayectoria. Presentamos Flash-GRPO, un marco de entrenamiento de un solo paso que supera al entrenamiento de trayectoria completa en calidad de alineación bajo presupuestos computacionales reducidos, mientras mejora sustancialmente la eficiencia del entrenamiento. Flash-GRPO aborda dos desafíos críticos: la agrupación iso-temporal elimina la varianza confundida por los pasos temporales al imponer consistencia temporal por indicación (prompt), desacoplando el rendimiento de la política de la dificultad del paso temporal; la rectificación de gradiente temporal neutraliza el factor de escala dependiente del tiempo que causa magnitudes de gradiente muy inconsistentes entre pasos temporales. Los experimentos en modelos de 1.3B a 14B parámetros validan la efectividad de Flash-GRPO, demostrando una aceleración sustancial del entrenamiento con estabilidad consistente y calidad de alineación de vanguardia.

English

Group Relative Policy Optimization has emerged as essential for aligning video diffusion models with human preferences, but faces a critical computational bottleneck: training a 14B parametered model typically demands hundreds of GPU days per experiment. Existing efficiency methods reduce costs through sliding window subsampling training timesteps, but fundamentally compromise optimization, exhibiting severe instability and failing to reach full trajectory performance. We present Flash-GRPO, a single-step training framework that outperforms full trajectory training in alignment quality under low computational budgets while substantially improving training efficiency. Flash-GRPO addresses two critical challenges: iso-temporal grouping eliminates timestep-confounded variance by enforcing prompt-wise temporal consistency, decoupling policy performance from timestep difficulty; temporal gradient rectification neutralizes the time-dependent scaling factor that causes vastly inconsistent gradient magnitudes across timesteps. Experiments on 1.3B to 14B parameter models validate Flash-GRPO's effectiveness, demonstrating substantial training acceleration with consistent stability and state-of-the-art alignment quality.