Ein systematisches Post-Train-Framework für die Videogenerierung

Zusammenfassung

Während großskalige Video-Diffusionsmodelle beeindruckende Fähigkeiten bei der Erzeugung hochauflösender und semantisch reichhaltiger Inhalte demonstriert haben, besteht nach wie vor eine erhebliche Lücke zwischen ihrer Vorabtrainingsleistung und den Anforderungen des realen Einsatzes. Dies ist auf kritische Probleme wie Prompt-Empfindlichkeit, zeitliche Inkonsistenzen und prohibitive Inferenzkosten zurückzuführen. Um diese Lücke zu schließen, schlagen wir einen umfassenden Post-Training-Rahmen vor, der vortrainierte Modelle systematisch durch vier synergetische Stufen an die Benutzerabsichten anpasst: Zuerst setzen wir überwachtes Feintuning (SFT) ein, um das Basismodell in eine stabile, befehlsbefolgende Strategie zu transformieren. Darauf folgt eine Phase des Verstärkenden Lernens aus menschlichem Feedback (RLHF), die eine neuartige „Group Relative Policy Optimization“-Methode (GRPO) nutzt, die speziell für die Videodiffusion entwickelt wurde, um die perzeptuelle Qualität und zeitliche Kohärenz zu verbessern. Anschließend integrieren wir eine Prompt-Verbesserung mittels eines spezialisierten Sprachmodells, um Benutzereingaben zu verfeinern, und adressieren schließlich die Systemeffizienz durch Inferenzoptimierung. Zusammen bieten diese Komponenten einen systematischen Ansatz zur Verbesserung der visuellen Qualität, zeitlichen Kohärenz und Befehlstreue, wobei die während des Vortrainings erlernte Steuerbarkeit erhalten bleibt. Das Ergebnis ist eine praktische Blaupause für den Aufbau skalierbarer Post-Training-Pipelines, die stabil, anpassungsfähig und im realen Einsatz effektiv sind. Umfangreiche Experimente belegen, dass diese vereinheitlichte Pipeline gängige Artefakte effektiv reduziert und die Steuerbarkeit sowie visuelle Ästhetik signifikant verbessert, während strikte Stichprobenkostenbeschränkungen eingehalten werden.

English

While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.

Ein systematisches Post-Train-Framework für die Videogenerierung

A Systematic Post-Train Framework for Video Generation

Zusammenfassung

Support