Self-Forcing++: Op Weg naar Minuut-Schaal Hoogwaardige Videogeneratie
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
October 2, 2025
Auteurs: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
Samenvatting
Diffusiemodellen hebben een revolutie teweeggebracht in beeld- en videogeneratie, waarbij ze een ongekende visuele kwaliteit bereiken. Hun afhankelijkheid van transformer-architecturen brengt echter extreem hoge rekenkosten met zich mee, vooral bij het uitbreiden van de generatie naar lange video's. Recent onderzoek heeft autoregressieve formuleringen verkend voor het genereren van lange video's, meestal door distillatie van kortetermijn bidirectionele leraren. Echter, aangezien leraarmodellen geen lange video's kunnen synthetiseren, leidt de extrapolatie van studentmodellen buiten hun trainingshorizon vaak tot een aanzienlijke kwaliteitsafname, veroorzaakt door de opeenstapeling van fouten in de continue latente ruimte. In dit artikel stellen we een eenvoudige maar effectieve aanpak voor om kwaliteitsafname bij het genereren van lange video's te verminderen, zonder toezicht van lange-video-leraren of hertraining op lange videodatasets. Onze aanpak richt zich op het benutten van de rijke kennis van leraarmodellen om begeleiding te bieden aan het studentmodel via bemonsterde segmenten uit zelf gegenereerde lange video's. Onze methode behoudt temporele consistentie terwijl de videolengte tot 20x wordt opgeschaald buiten het vermogen van de leraar, waarbij veelvoorkomende problemen zoals overbelichting en foutaccumulatie worden vermeden zonder overlappende frames opnieuw te berekenen zoals bij eerdere methoden. Bij het opschalen van de rekenkracht toont onze methode het vermogen om video's te genereren tot 4 minuten en 15 seconden, wat overeenkomt met 99,9% van de maximale duur die wordt ondersteund door de positie-embedding van ons basismodel en meer dan 50x langer dan die van ons basismodel. Experimenten op standaardbenchmarks en onze voorgestelde verbeterde benchmark tonen aan dat onze aanpak de baseline-methoden aanzienlijk overtreft in zowel getrouwheid als consistentie. Onze demo van lange video's is te vinden op https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving
unprecedented visual quality. However, their reliance on transformer
architectures incurs prohibitively high computational costs, particularly when
extending generation to long videos. Recent work has explored autoregressive
formulations for long video generation, typically by distilling from
short-horizon bidirectional teachers. Nevertheless, given that teacher models
cannot synthesize long videos, the extrapolation of student models beyond their
training horizon often leads to pronounced quality degradation, arising from
the compounding of errors within the continuous latent space. In this paper, we
propose a simple yet effective approach to mitigate quality degradation in
long-horizon video generation without requiring supervision from long-video
teachers or retraining on long video datasets. Our approach centers on
exploiting the rich knowledge of teacher models to provide guidance for the
student model through sampled segments drawn from self-generated long videos.
Our method maintains temporal consistency while scaling video length by up to
20x beyond teacher's capability, avoiding common issues such as over-exposure
and error-accumulation without recomputing overlapping frames like previous
methods. When scaling up the computation, our method shows the capability of
generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the
maximum span supported by our base model's position embedding and more than 50x
longer than that of our baseline model. Experiments on standard benchmarks and
our proposed improved benchmark demonstrate that our approach substantially
outperforms baseline methods in both fidelity and consistency. Our long-horizon
videos demo can be found at https://self-forcing-plus-plus.github.io/