Flash-GRPO: Effizientes Alignment für Videodiffusion durch einschrittige Policy-Optimierung

Zusammenfassung

Group Relative Policy Optimization hat sich als wesentlich für die Ausrichtung von Videodiffusionsmodellen an menschlichen Präferenzen erwiesen, steht jedoch vor einem kritischen rechnerischen Engpass: Das Training eines Modells mit 14B Parametern erfordert typischerweise Hunderte von GPU-Tagen pro Experiment. Bestehende Effizienzmethoden senken die Kosten durch Subsampling von Trainingszeitschritten mittels gleitendem Fenster, beeinträchtigen jedoch grundlegend die Optimierung, zeigen schwere Instabilität und erreichen nicht die vollständige Trajektorienleistung. Wir stellen Flash-GRPO vor, ein Einschritt-Trainingsframework, das bei geringem Rechenaufwand die Ausrichtungsqualität des vollständigen Trajektorientrainings übertrifft und gleichzeitig die Trainingseffizienz erheblich verbessert. Flash-GRPO adressiert zwei kritische Herausforderungen: Die isotemporale Gruppierung beseitigt die durch Zeitschritte verfälschte Varianz, indem sie eine promptweise zeitliche Konsistenz erzwingt und die Policy-Leistung von der Zeitschrittschwierigkeit entkoppelt; die temporale Gradientenkorrektur neutralisiert den zeitabhängigen Skalierungsfaktor, der stark inkonsistente Gradientenbeträge über die Zeitschritte hinweg verursacht. Experimente mit Modellen von 1,3B bis 14B Parametern bestätigen die Wirksamkeit von Flash-GRPO und zeigen eine erhebliche Trainingsbeschleunigung bei gleichbleibender Stabilität und modernster Ausrichtungsqualität.

English

Group Relative Policy Optimization has emerged as essential for aligning video diffusion models with human preferences, but faces a critical computational bottleneck: training a 14B parametered model typically demands hundreds of GPU days per experiment. Existing efficiency methods reduce costs through sliding window subsampling training timesteps, but fundamentally compromise optimization, exhibiting severe instability and failing to reach full trajectory performance. We present Flash-GRPO, a single-step training framework that outperforms full trajectory training in alignment quality under low computational budgets while substantially improving training efficiency. Flash-GRPO addresses two critical challenges: iso-temporal grouping eliminates timestep-confounded variance by enforcing prompt-wise temporal consistency, decoupling policy performance from timestep difficulty; temporal gradient rectification neutralizes the time-dependent scaling factor that causes vastly inconsistent gradient magnitudes across timesteps. Experiments on 1.3B to 14B parameter models validate Flash-GRPO's effectiveness, demonstrating substantial training acceleration with consistent stability and state-of-the-art alignment quality.