Verbesserung der trainingsfreien Generierung unendlicher Frames für konsistente lange Videos

Zusammenfassung

Ohne nennenswerten Rechenaufwand zielt die trainingsfreie Langzeitvideogenerierung darauf ab, fundamentale Videogenerierungsmodelle zu befähigen, längere Videos zu produzieren. Auf Frame-Ebene autoregressive Frameworks, wie z. B. FIFO-Diffusion, bieten den Vorteil, unendlich lange Videos mit konstantem Speicherverbrauch zu generieren. Allerdings schränkt die Diskrepanz zwischen Training und Inferenz, zusammen mit der Herausforderung der Aufrechterhaltung langfristiger Konsistenz, die effektive Nutzung von Fundamentmodellen ein. Um diese Probleme zu mildern, schlagen wir MIGA vor, eine neuartige Methode zur Generierung unendlich langer Videos. Zunächst schlagen wir einen effektiven zweistufigen Ausrichtungsmechanismus vor, der die Trainings-Inferenz-Lücke verringert, indem die dem Modell zugeführte übermäßige Rauschspanne reduziert wird. Wir führen dann einen innovativen dualen Konsistenzverstärkungsmechanismus ein, bei dem der Selbstreflexionsansatz frühe, verrauschte Frames korrigiert und der Ansatz der langreichweitigen Frame-Führung spätere, wenig verrauschte Frames mit breiter Abdeckung nutzt, um die Generierung zu lenken, und gemeinsam die zeitliche Konsistenz verbessert. Umfangreiche Experimente auf VBench und NarrLV belegen die Spitzenleistung von MIGA. Unsere Projektseite ist verfügbar unter https://xiaokunfeng.github.io/miga_homepage/.

English

Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose MIGA, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.