Un Quadro Sistematico di Post-Addestramento per la Generazione Video

Abstract

Sebbene i modelli di diffusione video su larga scala abbiano dimostrato capacità impressionanti nella generazione di contenuti ad alta risoluzione e semanticamente ricchi, rimane un divario significativo tra le loro prestazioni in pre-addestramento e i requisiti per un utilizzo nel mondo reale, a causa di problemi critici come la sensibilità ai prompt, l'incoerenza temporale e i costi di inferenza proibitivi. Per colmare questa lacuna, proponiamo un quadro completo di post-addestramento che allinea sistematicamente i modelli pre-addestrati con le intenzioni dell'utente attraverso quattro fasi sinergiche: inizialmente impieghiamo un Fine-Tuning Supervisionato (SFT) per trasformare il modello base in una politica stabile di seguito delle istruzioni, seguita da una fase di Apprendimento per Rinforzo tramite Feedback Umano (RLHF) che utilizza un nuovo metodo di Ottimizzazione Relativa di Politica di Gruppo (GRPO), sviluppato specificamente per la diffusione video, per migliorare la qualità percettiva e la coerenza temporale; successivamente, integriamo un Miglioramento del Prompt tramite un modello linguistico specializzato per affinare gli input dell'utente, e affrontiamo infine l'efficienza del sistema attraverso un'Ottimizzazione dell'Inferenza. Insieme, questi componenti forniscono un approccio sistematico per migliorare la qualità visiva, la coerenza temporale e l'aderenza alle istruzioni, preservando al contempo la controllabilità appresa durante il pre-addestramento. Il risultato è una guida pratica per la costruzione di pipeline di post-addestramento scalabili, stabili, adattabili ed efficaci per un impiego reale. Esperimenti estensivi dimostrano che questa pipeline unificata mitiga efficacemente gli artefatti comuni e migliora significativamente la controllabilità e l'estetica visiva, rispettando al contempo stringenti vincoli sui costi di campionamento.

English

While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.

Un Quadro Sistematico di Post-Addestramento per la Generazione Video

A Systematic Post-Train Framework for Video Generation

Abstract

Support