ChatPaper.aiChatPaper

Self-Forcing++: Hacia la Generación de Videos de Alta Calidad en Escala de Minutos

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

October 2, 2025
Autores: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI

Resumen

Los modelos de difusión han revolucionado la generación de imágenes y videos, logrando una calidad visual sin precedentes. Sin embargo, su dependencia de arquitecturas basadas en transformadores conlleva costos computacionales prohibitivamente altos, especialmente al extender la generación a videos largos. Trabajos recientes han explorado formulaciones autorregresivas para la generación de videos largos, generalmente mediante la destilación de modelos bidireccionales de corto alcance. No obstante, dado que los modelos maestros no pueden sintetizar videos largos, la extrapolación de los modelos estudiantiles más allá de su horizonte de entrenamiento suele resultar en una degradación pronunciada de la calidad, derivada de la acumulación de errores en el espacio latente continuo. En este artículo, proponemos un enfoque simple pero efectivo para mitigar la degradación de calidad en la generación de videos de largo horizonte, sin requerir supervisión de modelos maestros de videos largos ni reentrenamiento en conjuntos de datos de videos extensos. Nuestro enfoque se centra en aprovechar el conocimiento profundo de los modelos maestros para proporcionar guía al modelo estudiantil a través de segmentos muestreados extraídos de videos largos autogenerados. Nuestro método mantiene la consistencia temporal mientras escala la longitud del video hasta 20 veces más allá de la capacidad del modelo maestro, evitando problemas comunes como la sobreexposición y la acumulación de errores sin recalcular fotogramas superpuestos como en métodos anteriores. Al escalar el cómputo, nuestro método demuestra la capacidad de generar videos de hasta 4 minutos y 15 segundos, equivalente al 99.9% del máximo alcance soportado por la incrustación posicional de nuestro modelo base y más de 50 veces más largo que el de nuestro modelo de referencia. Los experimentos en puntos de referencia estándar y en nuestro nuevo punto de referencia propuesto demuestran que nuestro enfoque supera sustancialmente a los métodos de referencia tanto en fidelidad como en consistencia. Nuestra demostración de videos de largo horizonte puede encontrarse en https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising from the compounding of errors within the continuous latent space. In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from long-video teachers or retraining on long video datasets. Our approach centers on exploiting the rich knowledge of teacher models to provide guidance for the student model through sampled segments drawn from self-generated long videos. Our method maintains temporal consistency while scaling video length by up to 20x beyond teacher's capability, avoiding common issues such as over-exposure and error-accumulation without recomputing overlapping frames like previous methods. When scaling up the computation, our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model. Experiments on standard benchmarks and our proposed improved benchmark demonstrate that our approach substantially outperforms baseline methods in both fidelity and consistency. Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/
PDF863October 3, 2025