LumosFlow : Génération de vidéos longues guidée par le mouvement
LumosFlow: Motion-Guided Long Video Generation
June 3, 2025
Auteurs: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
cs.AI
Résumé
La génération de vidéos longues a suscité un intérêt croissant en raison de ses applications étendues dans des domaines tels que le divertissement et la simulation. Malgré les avancées, la synthèse de séquences longues, cohérentes temporellement et visuellement captivantes, reste un défi de taille. Les approches conventionnelles génèrent souvent des vidéos longues en produisant et en concaténant séquentiellement de courts clips, ou en générant des images clés puis en interpolant les images intermédiaires de manière hiérarchique. Cependant, ces méthodes rencontrent encore des difficultés significatives, entraînant des problèmes tels que des répétitions temporelles ou des transitions peu naturelles. Dans cet article, nous revisitons le pipeline hiérarchique de génération de vidéos longues et introduisons LumosFlow, un cadre qui intègre explicitement un guidage du mouvement. Plus précisément, nous utilisons d'abord le Large Motion Text-to-Video Diffusion Model (LMTV-DM) pour générer des images clés avec des intervalles de mouvement plus grands, assurant ainsi une diversité de contenu dans les vidéos longues générées. Face à la complexité de l'interpolation des transitions contextuelles entre les images clés, nous décomposons ensuite l'interpolation des images intermédiaires en génération de mouvement et raffinement post-hoc. Pour chaque paire d'images clés, le Latent Optical Flow Diffusion Model (LOF-DM) synthétise des flux optiques complexes et à grand mouvement, tandis que MotionControlNet affine ensuite les résultats déformés pour améliorer la qualité et guider la génération des images intermédiaires. Par rapport à l'interpolation traditionnelle d'images vidéo, nous atteignons une interpolation de 15x, garantissant un mouvement raisonnable et continu entre les images adjacentes. Les expériences montrent que notre méthode peut générer des vidéos longues avec un mouvement et une apparence cohérents. Le code et les modèles seront rendus publics après acceptation. Notre page de projet : https://jiahaochen1.github.io/LumosFlow/
English
Long video generation has gained increasing attention due to its widespread
applications in fields such as entertainment and simulation. Despite advances,
synthesizing temporally coherent and visually compelling long sequences remains
a formidable challenge. Conventional approaches often synthesize long videos by
sequentially generating and concatenating short clips, or generating key frames
and then interpolate the intermediate frames in a hierarchical manner. However,
both of them still remain significant challenges, leading to issues such as
temporal repetition or unnatural transitions. In this paper, we revisit the
hierarchical long video generation pipeline and introduce LumosFlow, a
framework introduce motion guidance explicitly. Specifically, we first employ
the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames
with larger motion intervals, thereby ensuring content diversity in the
generated long videos. Given the complexity of interpolating contextual
transitions between key frames, we further decompose the intermediate frame
interpolation into motion generation and post-hoc refinement. For each pair of
key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes
complex and large-motion optical flows, while MotionControlNet subsequently
refines the warped results to enhance quality and guide intermediate frame
generation. Compared with traditional video frame interpolation, we achieve 15x
interpolation, ensuring reasonable and continuous motion between adjacent
frames. Experiments show that our method can generate long videos with
consistent motion and appearance. Code and models will be made publicly
available upon acceptance. Our project page:
https://jiahaochen1.github.io/LumosFlow/