Flash-GRPO: Alinhamento Eficiente para Difusão de Vídeo via Otimização de Política de Um Passo

Resumo

A Otimização de Política Relativa ao Grupo (Group Relative Policy Optimization - GRPO) tornou-se essencial para alinhar modelos de difusão de vídeo com preferências humanas, mas enfrenta um gargalo computacional crítico: treinar um modelo com 14 bilhões de parâmetros normalmente exige centenas de dias de GPU por experimento. Métodos de eficiência existentes reduzem os custos por meio de subamostragem por janela deslizante dos passos de tempo de treinamento, mas comprometem fundamentalmente a otimização, apresentando instabilidade severa e não conseguindo atingir o desempenho completo da trajetória. Apresentamos o Flash-GRPO, uma estrutura de treinamento em etapa única que supera o treinamento de trajetória completa em qualidade de alinhamento sob orçamentos computacionais baixos, ao mesmo tempo que melhora substancialmente a eficiência do treinamento. O Flash-GRPO aborda dois desafios críticos: o agrupamento iso-temporal elimina a variância confundida por passos de tempo ao impor consistência temporal por prompt, desacoplando o desempenho da política da dificuldade do passo de tempo; a retificação do gradiente temporal neutraliza o fator de escala dependente do tempo que causa magnitudes de gradiente vastamente inconsistentes entre os passos de tempo. Experimentos em modelos de 1,3 a 14 bilhões de parâmetros validam a eficácia do Flash-GRPO, demonstrando aceleração substancial do treinamento com estabilidade consistente e qualidade de alinhamento de última geração.

English

Group Relative Policy Optimization has emerged as essential for aligning video diffusion models with human preferences, but faces a critical computational bottleneck: training a 14B parametered model typically demands hundreds of GPU days per experiment. Existing efficiency methods reduce costs through sliding window subsampling training timesteps, but fundamentally compromise optimization, exhibiting severe instability and failing to reach full trajectory performance. We present Flash-GRPO, a single-step training framework that outperforms full trajectory training in alignment quality under low computational budgets while substantially improving training efficiency. Flash-GRPO addresses two critical challenges: iso-temporal grouping eliminates timestep-confounded variance by enforcing prompt-wise temporal consistency, decoupling policy performance from timestep difficulty; temporal gradient rectification neutralizes the time-dependent scaling factor that causes vastly inconsistent gradient magnitudes across timesteps. Experiments on 1.3B to 14B parameter models validate Flash-GRPO's effectiveness, demonstrating substantial training acceleration with consistent stability and state-of-the-art alignment quality.