Self-Forcing++: Auf dem Weg zur Erzeugung hochwertiger Videos im Minutenmaßstab
Self-Forcing++: Towards Minute-Scale High-Quality Video Generation
October 2, 2025
papers.authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI
papers.abstract
Diffusionsmodelle haben die Bild- und Videogenerierung revolutioniert und eine beispiellose visuelle Qualität erreicht. Ihre Abhängigkeit von Transformer-Architekturen führt jedoch zu prohibitiv hohen Rechenkosten, insbesondere bei der Erzeugung langer Videos. Aktuelle Arbeiten haben autoregressive Ansätze für die Generierung langer Videos untersucht, typischerweise durch Distillation von kurzzeitigen bidirektionalen Lehrermodellen. Da Lehrermodelle jedoch keine langen Videos synthetisieren können, führt die Extrapolation von Schülermodellen über ihren Trainingshorizont hinaus oft zu einer deutlichen Qualitätsverschlechterung, die sich aus der Kumulierung von Fehlern im kontinuierlichen latenten Raum ergibt. In diesem Artikel schlagen wir einen einfachen, aber effektiven Ansatz vor, um die Qualitätsverschlechterung bei der langzeitigen Videogenerierung zu mildern, ohne dass eine Überwachung durch langzeitige Lehrermodelle oder ein erneutes Training auf langen Videodatensätzen erforderlich ist. Unser Ansatz konzentriert sich darauf, das umfangreiche Wissen der Lehrermodelle zu nutzen, um das Schülermodell durch aus selbstgenerierten langen Videos entnommene Segmente zu leiten. Unsere Methode bewahrt die zeitliche Konsistenz, während die Videolänge um bis zu 20x über die Fähigkeit des Lehrermodells hinaus skaliert wird, und vermeidet häufige Probleme wie Überbelichtung und Fehlerakkumulation, ohne überlappende Frames wie bei früheren Methoden neu zu berechnen. Bei der Skalierung der Rechenleistung zeigt unsere Methode die Fähigkeit, Videos von bis zu 4 Minuten und 15 Sekunden zu generieren, was 99,9 % der maximalen Spanne entspricht, die durch die Positions-Einbettung unseres Basismodells unterstützt wird, und mehr als 50x länger ist als die unseres Baseline-Modells. Experimente auf Standard-Benchmarks und unserem vorgeschlagenen verbesserten Benchmark zeigen, dass unser Ansatz Baseline-Methoden sowohl in Bezug auf die Bildtreue als auch auf die Konsistenz deutlich übertrifft. Unsere Demo für langzeitige Videos finden Sie unter https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving
unprecedented visual quality. However, their reliance on transformer
architectures incurs prohibitively high computational costs, particularly when
extending generation to long videos. Recent work has explored autoregressive
formulations for long video generation, typically by distilling from
short-horizon bidirectional teachers. Nevertheless, given that teacher models
cannot synthesize long videos, the extrapolation of student models beyond their
training horizon often leads to pronounced quality degradation, arising from
the compounding of errors within the continuous latent space. In this paper, we
propose a simple yet effective approach to mitigate quality degradation in
long-horizon video generation without requiring supervision from long-video
teachers or retraining on long video datasets. Our approach centers on
exploiting the rich knowledge of teacher models to provide guidance for the
student model through sampled segments drawn from self-generated long videos.
Our method maintains temporal consistency while scaling video length by up to
20x beyond teacher's capability, avoiding common issues such as over-exposure
and error-accumulation without recomputing overlapping frames like previous
methods. When scaling up the computation, our method shows the capability of
generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the
maximum span supported by our base model's position embedding and more than 50x
longer than that of our baseline model. Experiments on standard benchmarks and
our proposed improved benchmark demonstrate that our approach substantially
outperforms baseline methods in both fidelity and consistency. Our long-horizon
videos demo can be found at https://self-forcing-plus-plus.github.io/