LumosFlow: Generazione di Video Lunghi Guidata dal Movimento
LumosFlow: Motion-Guided Long Video Generation
June 3, 2025
Autori: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
cs.AI
Abstract
La generazione di video lunghi ha attirato un'attenzione crescente grazie alle sue ampie applicazioni in campi come l'intrattenimento e la simulazione. Nonostante i progressi, sintetizzare sequenze lunghe temporalmente coerenti e visivamente accattivanti rimane una sfida formidabile. Gli approcci convenzionali spesso sintetizzano video lunghi generando e concatenando sequenze di clip brevi, oppure generando fotogrammi chiave e interpolando i fotogrammi intermedi in modo gerarchico. Tuttavia, entrambi i metodi presentano ancora sfide significative, portando a problemi come ripetizioni temporali o transizioni innaturali. In questo articolo, riprendiamo in esame la pipeline gerarchica per la generazione di video lunghi e introduciamo LumosFlow, un framework che introduce esplicitamente una guida al movimento. Nello specifico, utilizziamo prima il Large Motion Text-to-Video Diffusion Model (LMTV-DM) per generare fotogrammi chiave con intervalli di movimento più ampi, garantendo così la diversità di contenuto nei video lunghi generati. Data la complessità dell'interpolazione delle transizioni contestuali tra i fotogrammi chiave, scomponiamo ulteriormente l'interpolazione dei fotogrammi intermedi in generazione del movimento e raffinamento post-hoc. Per ogni coppia di fotogrammi chiave, il Latent Optical Flow Diffusion Model (LOF-DM) sintetizza flussi ottici complessi e con ampi movimenti, mentre MotionControlNet raffinare i risultati deformati per migliorare la qualità e guidare la generazione dei fotogrammi intermedi. Rispetto all'interpolazione tradizionale dei fotogrammi video, otteniamo un'interpolazione 15x, garantendo un movimento ragionevole e continuo tra fotogrammi adiacenti. Gli esperimenti dimostrano che il nostro metodo può generare video lunghi con movimento e aspetto coerenti. Codice e modelli saranno resi pubblicamente disponibili dopo l'accettazione. La nostra pagina del progetto: https://jiahaochen1.github.io/LumosFlow/
English
Long video generation has gained increasing attention due to its widespread
applications in fields such as entertainment and simulation. Despite advances,
synthesizing temporally coherent and visually compelling long sequences remains
a formidable challenge. Conventional approaches often synthesize long videos by
sequentially generating and concatenating short clips, or generating key frames
and then interpolate the intermediate frames in a hierarchical manner. However,
both of them still remain significant challenges, leading to issues such as
temporal repetition or unnatural transitions. In this paper, we revisit the
hierarchical long video generation pipeline and introduce LumosFlow, a
framework introduce motion guidance explicitly. Specifically, we first employ
the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames
with larger motion intervals, thereby ensuring content diversity in the
generated long videos. Given the complexity of interpolating contextual
transitions between key frames, we further decompose the intermediate frame
interpolation into motion generation and post-hoc refinement. For each pair of
key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes
complex and large-motion optical flows, while MotionControlNet subsequently
refines the warped results to enhance quality and guide intermediate frame
generation. Compared with traditional video frame interpolation, we achieve 15x
interpolation, ensuring reasonable and continuous motion between adjacent
frames. Experiments show that our method can generate long videos with
consistent motion and appearance. Code and models will be made publicly
available upon acceptance. Our project page:
https://jiahaochen1.github.io/LumosFlow/