Een Systematisch Post-Train Framework voor Videogeneratie

Samenvatting

Hoewel grootschalige videodiffusiemodellen indrukwekkende prestaties leveren in het genereren van hoogwaardige en semantisch rijke content, blijft er een aanzienlijke kloof bestaan tussen hun voorgetrainde prestaties en de eisen voor praktische implementatie. Dit komt door kritieke problemen zoals promptgevoeligheid, temporele inconsistentie en prohibitieve inferentiekosten. Om deze kloof te overbruggen, stellen we een uitgebreid post-training framework voor dat voorgetrainde modellen systematisch afstemt op gebruikersintenties via vier synergetische fasen: eerst passen we Supervised Fine-Tuning (SFT) toe om het basismodel om te vormen tot een stabiel instructievolgend beleid, gevolgd door een Reinforcement Learning from Human Feedback (RLHF)-fase die gebruikmaakt van een nieuwe Group Relative Policy Optimization (GRPO)-methode, speciaal ontworpen voor videodiffusie, om de perceptuele kwaliteit en temporele coherentie te verbeteren; vervolgens integreren we Prompt Enhancement via een gespecialiseerd taalmodel om gebruikersinputs te verfijnen, en ten slotte pakken we systeemefficiëntie aan via Inference Optimization. Gezamenlijk bieden deze componenten een systematische aanpak om de visuele kwaliteit, temporele coherentie en instructievolging te verbeteren, waarbij de tijdens de voortraining verworven beheersbaarheid behouden blijft. Het resultaat is een praktische blauwdruk voor het bouwen van schaalbare post-training pijplijnen die stabiel, aanpasbaar en effectief zijn in praktische implementatie. Uitgebreide experimenten tonen aan dat deze verenigde pijplijn veelvoorkomende artefacten effectief vermindert en de beheersbaarheid en visuele esthetiek aanzienlijk verbetert, binnen strikte beperkingen van de steekproefkosten.

English

While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.

Een Systematisch Post-Train Framework voor Videogeneratie

A Systematic Post-Train Framework for Video Generation

Samenvatting

Support