Un Marco Sistemático de Post-Entrenamiento para la Generación de Vídeo

Resumen

Si bien los modelos de difusión de video a gran escala han demostrado capacidades impresionantes para generar contenido de alta resolución y semánticamente rico, persiste una brecha significativa entre su rendimiento en preentrenamiento y los requisitos de implementación en el mundo real, debido a problemas críticos como la sensibilidad a los prompts, la inconsistencia temporal y los costos de inferencia prohibitivos. Para cerrar esta brecha, proponemos un marco integral de post-entrenamiento que alinea sistemáticamente los modelos preentrenados con las intenciones del usuario a través de cuatro etapas sinérgicas: primero empleamos el Ajuste Fino Supervisado (SFT) para transformar el modelo base en una política estable que sigue instrucciones, seguido de una etapa de Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) que utiliza un novedoso método de Optimización de Políticas Relativas Grupales (GRPO) adaptado para la difusión de video, con el fin de mejorar la calidad perceptual y la coherencia temporal; posteriormente, integramos una Mejora de Prompts mediante un modelo de lenguaje especializado para refinar las entradas del usuario, y finalmente abordamos la eficiencia del sistema mediante una Optimización de la Inferencia. En conjunto, estos componentes proporcionan un enfoque sistemático para mejorar la calidad visual, la coherencia temporal y el seguimiento de instrucciones, al tiempo que preservan la controllabilidad aprendida durante el preentrenamiento. El resultado es un plan práctico para construir pipelines de post-entrenamiento escalables que sean estables, adaptables y efectivos en implementaciones del mundo real. Experimentos exhaustivos demuestran que esta pipeline unificada mitiga eficazmente los artefactos comunes y mejora significativamente la controllabilidad y la estética visual, respetando al mismo tiempo estrictas restricciones de coste de muestreo.

English

While large-scale video diffusion models have demonstrated impressive capabilities in generating high-resolution and semantically rich content, a significant gap remains between their pretraining performance and real-world deployment requirements due to critical issues such as prompt sensitivity, temporal inconsistency, and prohibitive inference costs. To bridge this gap, we propose a comprehensive post-training framework that systematically aligns pretrained models with user intentions through four synergistic stages: we first employ Supervised Fine-Tuning (SFT) to transform the base model into a stable instruction-following policy, followed by a Reinforcement Learning from Human Feedback (RLHF) stage that utilizes a novel Group Relative Policy Optimization (GRPO) method tailored for video diffusion to enhance perceptual quality and temporal coherence; subsequently, we integrate Prompt Enhancement via a specialized language model to refine user inputs, and finally address system efficiency through Inference Optimization. Together, these components provide a systematic approach to improving visual quality, temporal coherence, and instruction following, while preserving the controllability learned during pretraining. The result is a practical blueprint for building scalable post-training pipelines that are stable, adaptable, and effective in real-world deployment. Extensive experiments demonstrate that this unified pipeline effectively mitigates common artifacts and significantly improves controllability and visual aesthetics while adhering to strict sampling cost constraints.

Un Marco Sistemático de Post-Entrenamiento para la Generación de Vídeo

A Systematic Post-Train Framework for Video Generation

Resumen

Support