Flash-GRPO: Эффективное согласование для видео-диффузии посредством одношаговой оптимизации политики

Аннотация

Групповая относительная оптимизация политики (Group Relative Policy Optimization, GRPO) стала необходимой для согласования видеодиффузионных моделей с человеческими предпочтениями, однако сталкивается с критическим вычислительным узким местом: обучение модели с 14 млрд параметров обычно требует сотен GPU-дней за эксперимент. Существующие методы повышения эффективности снижают затраты за счет подвыборки временных шагов обучения с помощью скользящего окна, но принципиально ухудшают оптимизацию, демонстрируя серьезную нестабильность и неспособность достичь полной производительности траектории. Мы представляем Flash-GRPO — одношаговый фреймворк обучения, который превосходит обучение на полной траектории по качеству согласования при низких вычислительных бюджетах, одновременно существенно повышая эффективность обучения. Flash-GRPO решает две ключевые проблемы: изовременная группировка устраняет дисперсию, обусловленную временными шагами, за счет обеспечения временной согласованности по каждому запросу, отделяя производительность политики от сложности временного шага; временная градиентная коррекция нейтрализует зависящий от времени масштабирующий коэффициент, вызывающий сильно несогласованные величины градиентов на разных временных шагах. Эксперименты на моделях от 1,3 до 14 млрд параметров подтверждают эффективность Flash-GRPO, демонстрируя существенное ускорение обучения при стабильной устойчивости и передовом качестве согласования.

English

Group Relative Policy Optimization has emerged as essential for aligning video diffusion models with human preferences, but faces a critical computational bottleneck: training a 14B parametered model typically demands hundreds of GPU days per experiment. Existing efficiency methods reduce costs through sliding window subsampling training timesteps, but fundamentally compromise optimization, exhibiting severe instability and failing to reach full trajectory performance. We present Flash-GRPO, a single-step training framework that outperforms full trajectory training in alignment quality under low computational budgets while substantially improving training efficiency. Flash-GRPO addresses two critical challenges: iso-temporal grouping eliminates timestep-confounded variance by enforcing prompt-wise temporal consistency, decoupling policy performance from timestep difficulty; temporal gradient rectification neutralizes the time-dependent scaling factor that causes vastly inconsistent gradient magnitudes across timesteps. Experiments on 1.3B to 14B parameter models validate Flash-GRPO's effectiveness, demonstrating substantial training acceleration with consistent stability and state-of-the-art alignment quality.