LumosFlow: Bewegungsgesteuerte Erzeugung langer Videos
LumosFlow: Motion-Guided Long Video Generation
June 3, 2025
papers.authors: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
cs.AI
papers.abstract
Die Erzeugung langer Videos hat aufgrund ihrer weit verbreiteten Anwendungen in Bereichen wie Unterhaltung und Simulation zunehmend an Bedeutung gewonnen. Trotz Fortschritten bleibt die Synthese zeitlich kohärenter und visuell ansprechender langer Sequenzen eine große Herausforderung. Herkömmliche Ansätze erzeugen lange Videos oft durch sequenzielle Generierung und Verkettung kurzer Clips oder durch die Generierung von Schlüsselbildern und anschließende Interpolation der Zwischenbilder in hierarchischer Weise. Beide Ansätze bergen jedoch weiterhin erhebliche Herausforderungen, die zu Problemen wie zeitlicher Wiederholung oder unnatürlichen Übergängen führen. In diesem Beitrag untersuchen wir den hierarchischen Prozess zur Erzeugung langer Videos erneut und stellen LumosFlow vor, ein Framework, das explizit Bewegungsführung einführt. Konkret verwenden wir zunächst das Large Motion Text-to-Video Diffusion Model (LMTV-DM), um Schlüsselbilder mit größeren Bewegungsintervallen zu generieren und so die Inhaltsvielfalt in den erzeugten langen Videos sicherzustellen. Angesichts der Komplexität der Interpolation kontextueller Übergänge zwischen Schlüsselbildern zerlegen wir die Interpolation der Zwischenbilder weiter in Bewegungsgenerierung und nachträgliche Verfeinerung. Für jedes Paar von Schlüsselbildern synthetisiert das Latent Optical Flow Diffusion Model (LOF-DM) komplexe und großräumige optische Flüsse, während MotionControlNet anschließend die verzerrten Ergebnisse verfeinert, um die Qualität zu verbessern und die Generierung der Zwischenbilder zu steuern. Im Vergleich zur traditionellen Video-Interpolation erreichen wir eine 15-fache Interpolation und gewährleisten so eine sinnvolle und kontinuierliche Bewegung zwischen benachbarten Bildern. Experimente zeigen, dass unsere Methode lange Videos mit konsistenter Bewegung und Erscheinung erzeugen kann. Code und Modelle werden nach der Annahme öffentlich zugänglich gemacht. Unsere Projektseite: https://jiahaochen1.github.io/LumosFlow/
English
Long video generation has gained increasing attention due to its widespread
applications in fields such as entertainment and simulation. Despite advances,
synthesizing temporally coherent and visually compelling long sequences remains
a formidable challenge. Conventional approaches often synthesize long videos by
sequentially generating and concatenating short clips, or generating key frames
and then interpolate the intermediate frames in a hierarchical manner. However,
both of them still remain significant challenges, leading to issues such as
temporal repetition or unnatural transitions. In this paper, we revisit the
hierarchical long video generation pipeline and introduce LumosFlow, a
framework introduce motion guidance explicitly. Specifically, we first employ
the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames
with larger motion intervals, thereby ensuring content diversity in the
generated long videos. Given the complexity of interpolating contextual
transitions between key frames, we further decompose the intermediate frame
interpolation into motion generation and post-hoc refinement. For each pair of
key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes
complex and large-motion optical flows, while MotionControlNet subsequently
refines the warped results to enhance quality and guide intermediate frame
generation. Compared with traditional video frame interpolation, we achieve 15x
interpolation, ensuring reasonable and continuous motion between adjacent
frames. Experiments show that our method can generate long videos with
consistent motion and appearance. Code and models will be made publicly
available upon acceptance. Our project page:
https://jiahaochen1.github.io/LumosFlow/