LumosFlow: Bewegingsgestuurde Generatie van Lange Video's
LumosFlow: Motion-Guided Long Video Generation
June 3, 2025
Auteurs: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
cs.AI
Samenvatting
Het genereren van lange video's heeft steeds meer aandacht gekregen vanwege de brede toepassingen in gebieden zoals entertainment en simulatie. Ondanks vooruitgang blijft het synthetiseren van temporeel coherente en visueel overtuigende lange sequenties een aanzienlijke uitdaging. Traditionele benaderingen genereren vaak lange video's door sequentieel korte clips te genereren en aan elkaar te plakken, of door sleutelframes te genereren en vervolgens de tussenliggende frames op een hiërarchische manier te interpoleren. Beide methoden blijven echter aanzienlijke uitdagingen houden, wat leidt tot problemen zoals temporele herhaling of onnatuurlijke overgangen. In dit artikel herzien we de hiërarchische pijplijn voor het genereren van lange video's en introduceren we LumosFlow, een framework dat expliciet beweging begeleidt. Specifiek gebruiken we eerst het Large Motion Text-to-Video Diffusion Model (LMTV-DM) om sleutelframes te genereren met grotere bewegingsintervallen, waardoor we de inhoudelijke diversiteit in de gegenereerde lange video's waarborgen. Gezien de complexiteit van het interpoleren van contextuele overgangen tussen sleutelframes, verdelen we de interpolatie van tussenliggende frames verder in beweging generatie en post-hoc verfijning. Voor elk paar sleutelframes synthetiseert het Latent Optical Flow Diffusion Model (LOF-DM) complexe en grootschalige optische stromen, terwijl MotionControlNet de vervormde resultaten verfijnt om de kwaliteit te verbeteren en de generatie van tussenliggende frames te begeleiden. In vergelijking met traditionele video frame interpolatie bereiken we een 15-voudige interpolatie, wat zorgt voor een redelijke en continue beweging tussen aangrenzende frames. Experimenten tonen aan dat onze methode lange video's kan genereren met consistente beweging en uiterlijk. Code en modellen zullen na acceptatie openbaar beschikbaar worden gesteld. Onze projectpagina: https://jiahaochen1.github.io/LumosFlow/
English
Long video generation has gained increasing attention due to its widespread
applications in fields such as entertainment and simulation. Despite advances,
synthesizing temporally coherent and visually compelling long sequences remains
a formidable challenge. Conventional approaches often synthesize long videos by
sequentially generating and concatenating short clips, or generating key frames
and then interpolate the intermediate frames in a hierarchical manner. However,
both of them still remain significant challenges, leading to issues such as
temporal repetition or unnatural transitions. In this paper, we revisit the
hierarchical long video generation pipeline and introduce LumosFlow, a
framework introduce motion guidance explicitly. Specifically, we first employ
the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames
with larger motion intervals, thereby ensuring content diversity in the
generated long videos. Given the complexity of interpolating contextual
transitions between key frames, we further decompose the intermediate frame
interpolation into motion generation and post-hoc refinement. For each pair of
key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes
complex and large-motion optical flows, while MotionControlNet subsequently
refines the warped results to enhance quality and guide intermediate frame
generation. Compared with traditional video frame interpolation, we achieve 15x
interpolation, ensuring reasonable and continuous motion between adjacent
frames. Experiments show that our method can generate long videos with
consistent motion and appearance. Code and models will be made publicly
available upon acceptance. Our project page:
https://jiahaochen1.github.io/LumosFlow/