ChatPaper.aiChatPaper

Self-Forcing++: Auf dem Weg zur Erzeugung hochwertiger Videos im Minutenmaßstab

Self-Forcing++: Towards Minute-Scale High-Quality Video Generation

October 2, 2025
papers.authors: Justin Cui, Jie Wu, Ming Li, Tao Yang, Xiaojie Li, Rui Wang, Andrew Bai, Yuanhao Ban, Cho-Jui Hsieh
cs.AI

papers.abstract

Diffusionsmodelle haben die Bild- und Videogenerierung revolutioniert und eine beispiellose visuelle Qualität erreicht. Ihre Abhängigkeit von Transformer-Architekturen führt jedoch zu prohibitiv hohen Rechenkosten, insbesondere bei der Erzeugung langer Videos. Aktuelle Arbeiten haben autoregressive Ansätze für die Generierung langer Videos untersucht, typischerweise durch Distillation von kurzzeitigen bidirektionalen Lehrermodellen. Da Lehrermodelle jedoch keine langen Videos synthetisieren können, führt die Extrapolation von Schülermodellen über ihren Trainingshorizont hinaus oft zu einer deutlichen Qualitätsverschlechterung, die sich aus der Kumulierung von Fehlern im kontinuierlichen latenten Raum ergibt. In diesem Artikel schlagen wir einen einfachen, aber effektiven Ansatz vor, um die Qualitätsverschlechterung bei der langzeitigen Videogenerierung zu mildern, ohne dass eine Überwachung durch langzeitige Lehrermodelle oder ein erneutes Training auf langen Videodatensätzen erforderlich ist. Unser Ansatz konzentriert sich darauf, das umfangreiche Wissen der Lehrermodelle zu nutzen, um das Schülermodell durch aus selbstgenerierten langen Videos entnommene Segmente zu leiten. Unsere Methode bewahrt die zeitliche Konsistenz, während die Videolänge um bis zu 20x über die Fähigkeit des Lehrermodells hinaus skaliert wird, und vermeidet häufige Probleme wie Überbelichtung und Fehlerakkumulation, ohne überlappende Frames wie bei früheren Methoden neu zu berechnen. Bei der Skalierung der Rechenleistung zeigt unsere Methode die Fähigkeit, Videos von bis zu 4 Minuten und 15 Sekunden zu generieren, was 99,9 % der maximalen Spanne entspricht, die durch die Positions-Einbettung unseres Basismodells unterstützt wird, und mehr als 50x länger ist als die unseres Baseline-Modells. Experimente auf Standard-Benchmarks und unserem vorgeschlagenen verbesserten Benchmark zeigen, dass unser Ansatz Baseline-Methoden sowohl in Bezug auf die Bildtreue als auch auf die Konsistenz deutlich übertrifft. Unsere Demo für langzeitige Videos finden Sie unter https://self-forcing-plus-plus.github.io/.
English
Diffusion models have revolutionized image and video generation, achieving unprecedented visual quality. However, their reliance on transformer architectures incurs prohibitively high computational costs, particularly when extending generation to long videos. Recent work has explored autoregressive formulations for long video generation, typically by distilling from short-horizon bidirectional teachers. Nevertheless, given that teacher models cannot synthesize long videos, the extrapolation of student models beyond their training horizon often leads to pronounced quality degradation, arising from the compounding of errors within the continuous latent space. In this paper, we propose a simple yet effective approach to mitigate quality degradation in long-horizon video generation without requiring supervision from long-video teachers or retraining on long video datasets. Our approach centers on exploiting the rich knowledge of teacher models to provide guidance for the student model through sampled segments drawn from self-generated long videos. Our method maintains temporal consistency while scaling video length by up to 20x beyond teacher's capability, avoiding common issues such as over-exposure and error-accumulation without recomputing overlapping frames like previous methods. When scaling up the computation, our method shows the capability of generating videos up to 4 minutes and 15 seconds, equivalent to 99.9% of the maximum span supported by our base model's position embedding and more than 50x longer than that of our baseline model. Experiments on standard benchmarks and our proposed improved benchmark demonstrate that our approach substantially outperforms baseline methods in both fidelity and consistency. Our long-horizon videos demo can be found at https://self-forcing-plus-plus.github.io/
PDF863October 3, 2025