Um Framework Sistemático de Pós-Treinamento para Geração de Vídeo

Resumo

Embora os modelos de difusão de vídeo em larga escala tenham demonstrado capacidades impressionantes na geração de conteúdo de alta resolução e semanticamente rico, uma lacuna significativa permanece entre o seu desempenho no pré-treinamento e os requisitos de implantação no mundo real devido a problemas críticos, como sensibilidade a *prompts*, inconsistência temporal e custos proibitivos de inferência. Para preencher essa lacuna, propomos uma estrutura abrangente de pós-treinamento que alinha sistematicamente os modelos pré-treinados com as intenções do usuário por meio de quatro estágios sinérgicos: primeiro, empregamos o Ajuste Fino Supervisionado (SFT) para transformar o modelo base em uma política estável de seguimento de instruções, seguido por um estágio de Aprendizado por Reforço com Feedback Humano (RLHF) que utiliza um novo método de Otimização de Política Relativa em Grupo (GRPO) adaptado para difusão de vídeo para melhorar a qualidade perceptual e a coerência temporal; subsequentemente, integramos o Aprimoramento de *Prompts* por meio de um modelo de linguagem especializado para refinar as entradas do usuário e, finalmente, abordamos a eficiência do sistema por meio de Otimização de Inferência. Juntos, esses componentes fornecem uma abordagem sistemática para melhorar a qualidade visual, a coerência temporal e o seguimento de instruções, preservando a controlabilidade aprendida durante o pré-treinamento. O resultado é um projeto prático para a construção de *pipelines* de pós-treinamento escaláveis que são estáveis, adaptáveis e eficazes na implantação no mundo real. Experimentos extensivos demonstram que esse *pipeline* unificado mitiga efetivamente artefatos comuns e melhora significativamente a controlabilidade e a estética visual, respeitando rigorosas restrições de custo de amostragem.

English

While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.

Um Framework Sistemático de Pós-Treinamento para Geração de Vídeo

A Systematic Post-Train Framework for Video Generation

Resumo

Support