LumosFlow: Geração de Vídeos Longos Guiada por Movimento
LumosFlow: Motion-Guided Long Video Generation
June 3, 2025
Autores: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
cs.AI
Resumo
A geração de vídeos longos tem ganhado crescente atenção devido às suas amplas aplicações em áreas como entretenimento e simulação. Apesar dos avanços, a síntese de sequências longas temporalmente coerentes e visualmente atraentes continua sendo um desafio formidável. Abordagens convencionais frequentemente sintetizam vídeos longos gerando e concatenando sequencialmente clipes curtos, ou gerando quadros-chave e interpolando os quadros intermediários de maneira hierárquica. No entanto, ambas as abordagens ainda enfrentam desafios significativos, resultando em problemas como repetição temporal ou transições não naturais. Neste artigo, revisitamos o pipeline hierárquico de geração de vídeos longos e introduzimos o LumosFlow, um framework que incorpora explicitamente a orientação de movimento. Especificamente, empregamos primeiro o Large Motion Text-to-Video Diffusion Model (LMTV-DM) para gerar quadros-chave com intervalos de movimento maiores, garantindo assim a diversidade de conteúdo nos vídeos longos gerados. Dada a complexidade de interpolar transições contextuais entre quadros-chave, decompomos ainda mais a interpolação de quadros intermediários em geração de movimento e refinamento pós-processamento. Para cada par de quadros-chave, o Latent Optical Flow Diffusion Model (LOF-DM) sintetiza fluxos ópticos complexos e de grande movimento, enquanto o MotionControlNet refina os resultados deformados para melhorar a qualidade e orientar a geração de quadros intermediários. Em comparação com a interpolação tradicional de quadros de vídeo, alcançamos uma interpolação de 15x, garantindo movimento razoável e contínuo entre quadros adjacentes. Experimentos mostram que nosso método pode gerar vídeos longos com movimento e aparência consistentes. Códigos e modelos serão disponibilizados publicamente após a aceitação. Nossa página do projeto: https://jiahaochen1.github.io/LumosFlow/
English
Long video generation has gained increasing attention due to its widespread
applications in fields such as entertainment and simulation. Despite advances,
synthesizing temporally coherent and visually compelling long sequences remains
a formidable challenge. Conventional approaches often synthesize long videos by
sequentially generating and concatenating short clips, or generating key frames
and then interpolate the intermediate frames in a hierarchical manner. However,
both of them still remain significant challenges, leading to issues such as
temporal repetition or unnatural transitions. In this paper, we revisit the
hierarchical long video generation pipeline and introduce LumosFlow, a
framework introduce motion guidance explicitly. Specifically, we first employ
the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames
with larger motion intervals, thereby ensuring content diversity in the
generated long videos. Given the complexity of interpolating contextual
transitions between key frames, we further decompose the intermediate frame
interpolation into motion generation and post-hoc refinement. For each pair of
key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes
complex and large-motion optical flows, while MotionControlNet subsequently
refines the warped results to enhance quality and guide intermediate frame
generation. Compared with traditional video frame interpolation, we achieve 15x
interpolation, ensuring reasonable and continuous motion between adjacent
frames. Experiments show that our method can generate long videos with
consistent motion and appearance. Code and models will be made publicly
available upon acceptance. Our project page:
https://jiahaochen1.github.io/LumosFlow/