LumosFlow: Generación de Videos Largos Guiada por Movimiento
LumosFlow: Motion-Guided Long Video Generation
June 3, 2025
Autores: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
cs.AI
Resumen
La generación de videos largos ha ganado creciente atención debido a sus amplias aplicaciones en campos como el entretenimiento y la simulación. A pesar de los avances, sintetizar secuencias largas temporalmente coherentes y visualmente atractivas sigue siendo un desafío formidable. Los enfoques convencionales suelen sintetizar videos largos generando y concatenando secuencialmente clips cortos, o generando fotogramas clave y luego interpolando los fotogramas intermedios de manera jerárquica. Sin embargo, ambos métodos aún presentan desafíos significativos, lo que lleva a problemas como repetición temporal o transiciones poco naturales. En este artículo, revisitamos la pipeline jerárquica de generación de videos largos e introducimos LumosFlow, un marco que incorpora explícitamente guía de movimiento. Específicamente, primero empleamos el Modelo de Difusión de Texto a Video con Movimiento Amplio (LMTV-DM) para generar fotogramas clave con intervalos de movimiento más grandes, asegurando así la diversidad de contenido en los videos largos generados. Dada la complejidad de interpolar transiciones contextuales entre fotogramas clave, descomponemos además la interpolación de fotogramas intermedios en generación de movimiento y refinamiento posterior. Para cada par de fotogramas clave, el Modelo de Difusión de Flujo Óptico Latente (LOF-DM) sintetiza flujos ópticos complejos y de gran movimiento, mientras que MotionControlNet refina los resultados deformados para mejorar la calidad y guiar la generación de fotogramas intermedios. En comparación con la interpolación tradicional de fotogramas de video, logramos una interpolación de 15x, asegurando un movimiento razonable y continuo entre fotogramas adyacentes. Los experimentos muestran que nuestro método puede generar videos largos con movimiento y apariencia consistentes. El código y los modelos estarán disponibles públicamente tras la aceptación. Nuestra página del proyecto: https://jiahaochen1.github.io/LumosFlow/
English
Long video generation has gained increasing attention due to its widespread
applications in fields such as entertainment and simulation. Despite advances,
synthesizing temporally coherent and visually compelling long sequences remains
a formidable challenge. Conventional approaches often synthesize long videos by
sequentially generating and concatenating short clips, or generating key frames
and then interpolate the intermediate frames in a hierarchical manner. However,
both of them still remain significant challenges, leading to issues such as
temporal repetition or unnatural transitions. In this paper, we revisit the
hierarchical long video generation pipeline and introduce LumosFlow, a
framework introduce motion guidance explicitly. Specifically, we first employ
the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames
with larger motion intervals, thereby ensuring content diversity in the
generated long videos. Given the complexity of interpolating contextual
transitions between key frames, we further decompose the intermediate frame
interpolation into motion generation and post-hoc refinement. For each pair of
key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes
complex and large-motion optical flows, while MotionControlNet subsequently
refines the warped results to enhance quality and guide intermediate frame
generation. Compared with traditional video frame interpolation, we achieve 15x
interpolation, ensuring reasonable and continuous motion between adjacent
frames. Experiments show that our method can generate long videos with
consistent motion and appearance. Code and models will be made publicly
available upon acceptance. Our project page:
https://jiahaochen1.github.io/LumosFlow/