Self-Forcing++: Verso la Generazione di Video di Alta Qualità su Scala Minutaria
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
October 2, 2025
Autori: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
Abstract
I modelli di diffusione hanno rivoluzionato la generazione di immagini e video, raggiungendo una qualità visiva senza precedenti. Tuttavia, la loro dipendenza da architetture transformer comporta costi computazionali proibitivamente elevati, specialmente quando si estende la generazione a video lunghi. Recenti lavori hanno esplorato formulazioni autoregressive per la generazione di video lunghi, tipicamente distillando da insegnanti bidirezionali a breve orizzonte. Ciononostante, dato che i modelli insegnanti non possono sintetizzare video lunghi, l'estrapolazione dei modelli studente oltre il loro orizzonte di addestramento spesso porta a un marcato degrado della qualità, causato dall'accumulo di errori nello spazio latente continuo. In questo articolo, proponiamo un approccio semplice ma efficace per mitigare il degrado della qualità nella generazione di video a lungo orizzonte senza richiedere supervisione da insegnanti di video lunghi o riaddestramento su dataset di video lunghi. Il nostro approccio si concentra sullo sfruttamento della ricca conoscenza dei modelli insegnanti per fornire guida al modello studente attraverso segmenti campionati tratti da video lunghi autogenerati. Il nostro metodo mantiene la coerenza temporale mentre scala la lunghezza del video fino a 20 volte oltre la capacità dell'insegnante, evitando problemi comuni come sovraesposizione e accumulo di errori senza ricalcolare frame sovrapposti come nei metodi precedenti. Quando si scala il calcolo, il nostro metodo dimostra la capacità di generare video fino a 4 minuti e 15 secondi, equivalenti al 99,9% della durata massima supportata dall'embedding posizionale del nostro modello base e più di 50 volte più lunghi rispetto al nostro modello di riferimento. Esperimenti su benchmark standard e sul nostro benchmark migliorato dimostrano che il nostro approccio supera sostanzialmente i metodi di riferimento sia in fedeltà che in coerenza. La demo dei nostri video a lungo orizzonte è disponibile all'indirizzo https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving
unprecedented visual quality. However, their reliance on transformer
architectures incurs prohibitively high computational costs, particularly when
extending generation to long videos. Recent work has explored autoregressive
formulations for long video generation, typically by distilling from
short-horizon bidirectional teachers. Nevertheless, given that teacher models
cannot synthesize long videos, the extrapolation of student models beyond their
training horizon often leads to pronounced quality degradation, arising from
the compounding of errors within the continuous latent space. In this paper, we
propose a simple yet effective approach to mitigate quality degradation in
long-horizon video generation without requiring supervision from long-video
teachers or retraining on long video datasets. Our approach centers on
exploiting the rich knowledge of teacher models to provide guidance for the
student model through sampled segments drawn from self-generated long videos.
Our method maintains temporal consistency while scaling video length by up to
20x beyond teacher's capability, avoiding common issues such as over-exposure
and error-accumulation without recomputing overlapping frames like previous
methods. When scaling up the computation, our method shows the capability of
generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the
maximum span supported by our base model's position embedding and more than 50x
longer than that of our baseline model. Experiments on standard benchmarks and
our proposed improved benchmark demonstrate that our approach substantially
outperforms baseline methods in both fidelity and consistency. Our long-horizon
videos demo can be found at https://self-forcing-plus-plus.github.io/