Verbetering van trainingsvrije oneindige-framegeneratie voor consistente lange video's

Samenvatting

Zonder aanzienlijke rekenkundige overhead te veroorzaken, beoogt train-free generatie van lange video's om fundamentele videogeneratiemodellen in staat te stellen langere video's te produceren. Autoregressieve raamwerken op frameniveau, zoals FIFO-diffusion, bieden het voordeel dat ze oneindig lange video's kunnen genereren met een constant geheugengebruik. De mismatch tussen training en inferentie, gekoppeld aan de uitdaging om consistentie op lange termijn te behouden, beperkt echter de effectieve inzet van fundamentele modellen. Om deze problemen aan te pakken, stellen we MIGA voor, een nieuwe methode voor oneindige videogeneratie. Ten eerste introduceren we een effectief tweefasig aligneringsmechanisme dat de training-inferentiekloof verkleint door de overmatige ruisomvang die aan het model wordt gevoed te verminderen. Vervolgens introduceren we een innovatief duaal consistentieverbeteringsmechanisme, waarbij de zelfreflectiebenadering vroege frames met hoge ruis corrigeert en de richtinggevende benadering voor verre frames latere frames met lage ruis en brede dekking gebruikt om de generatie te sturen, wat gezamenlijk de temporele consistentie verbetert. Uitgebreide experimenten op VBench en NarrLV tonen de state-of-the-art prestaties van MIGA. Onze projectpagina is beschikbaar op https://xiaokunfeng.github.io/miga_homepage/.

English

Without incurring significant computational overhead, train-free long video generation aims to enable foundation video generation models to produce longer videos. Frame-level autoregressive frameworks, e.g., FIFO-diffusion, offer the advantage of generating infinitely long videos with constant memory consumption. However, the mismatch between training and inference, coupled with the challenge of maintaining long-term consistency, limits the effective utilization of foundation models. To mitigate these concerns, we propose MIGA, a novel infinite-frame long video generation method. Firstly, we propose an effective two-stage alignment mechanism that mitigates the training-inference gap by reducing the excessive noise span fed to the model. We then introduce an innovative dual consistency enhancement mechanism, where the self-reflection approach corrects early high-noise frames and the long-range frame guidance approach leverages later low-noise frames with broad coverage to steer generation, jointly improving temporal consistency. Extensive experiments on VBench and NarrLV demonstrate the state-of-the-art performance of MIGA. Our project page is available at https://xiaokunfeng.github.io/miga_homepage/.