Flash-GRPO: Efficiënte afstemming voor videodiffusie via éénstapsbeleidsoptimalisatie

Samenvatting

Group Relative Policy Optimization is essentieel geworden voor het afstemmen van videodiffusiemodellen op menselijke voorkeuren, maar kent een kritieke rekenkundige bottleneck: het trainen van een model met 14 miljard parameters vereist doorgaans honderden GPU-dagen per experiment. Bestaande efficiëntiemethoden verlagen de kosten door subsampling met een schuivend venster van trainingsstappen, maar doen fundamenteel afbreuk aan de optimalisatie, wat leidt tot ernstige instabiliteit en het niet behalen van volledige trajectprestaties. Wij presenteren Flash-GRPO, een enkelstaps trainingsraamwerk dat onder lage rekenbudgetten de afstemmingskwaliteit van volledige trajecttraining overtreft en tegelijkertijd de trainingsefficiëntie aanzienlijk verbetert. Flash-GRPO pakt twee kritieke uitdagingen aan: iso-temporele groepering elimineert door tijdsstappen veroorzaakte variantie door temporele consistentie per prompt af te dwingen, waardoor beleidsprestaties worden ontkoppeld van de moeilijkheidsgraad van tijdsstappen; temporele gradientcorrectie neutraliseert de tijdsafhankelijke schaalfactor die zorgt voor sterk inconsistente gradientgroottes over tijdsstappen heen. Experimenten met modellen van 1,3 tot 14 miljard parameters valideren de effectiviteit van Flash-GRPO, met een aanzienlijke trainingsversnelling bij consistente stabiliteit en state-of-the-art afstemmingskwaliteit.

English

Group Relative Policy Optimization has emerged as essential for aligning video diffusion models with human preferences, but faces a critical computational bottleneck: training a 14B parametered model typically demands hundreds of GPU days per experiment. Existing efficiency methods reduce costs through sliding window subsampling training timesteps, but fundamentally compromise optimization, exhibiting severe instability and failing to reach full trajectory performance. We present Flash-GRPO, a single-step training framework that outperforms full trajectory training in alignment quality under low computational budgets while substantially improving training efficiency. Flash-GRPO addresses two critical challenges: iso-temporal grouping eliminates timestep-confounded variance by enforcing prompt-wise temporal consistency, decoupling policy performance from timestep difficulty; temporal gradient rectification neutralizes the time-dependent scaling factor that causes vastly inconsistent gradient magnitudes across timesteps. Experiments on 1.3B to 14B parameter models validate Flash-GRPO's effectiveness, demonstrating substantial training acceleration with consistent stability and state-of-the-art alignment quality.