LumosFlow: Генерация длинных видео с управлением движением
LumosFlow: Motion-Guided Long Video Generation
June 3, 2025
Авторы: Jiahao Chen, Hangjie Yuan, Yichen Qian, Jingyun Liang, Jiazheng Xing, Pengwei Liu, Weihua Chen, Fan Wang, Bing Su
cs.AI
Аннотация
Генерация длинных видео привлекает все больше внимания благодаря широкому применению в таких областях, как развлечения и симуляции. Несмотря на прогресс, синтез временно согласованных и визуально привлекательных длинных последовательностей остается сложной задачей. Традиционные подходы часто синтезируют длинные видео путем последовательной генерации и объединения коротких клипов или генерации ключевых кадров с последующей интерполяцией промежуточных кадров в иерархической манере. Однако оба подхода по-прежнему сталкиваются с серьезными трудностями, приводящими к таким проблемам, как временные повторы или неестественные переходы. В данной работе мы пересматриваем иерархический процесс генерации длинных видео и представляем LumosFlow — фреймворк, который явно вводит управление движением. В частности, мы сначала используем Large Motion Text-to-Video Diffusion Model (LMTV-DM) для генерации ключевых кадров с большими интервалами движения, что обеспечивает разнообразие контента в создаваемых длинных видео. Учитывая сложность интерполяции контекстных переходов между ключевыми кадрами, мы дополнительно разбиваем интерполяцию промежуточных кадров на генерацию движения и последующее уточнение. Для каждой пары ключевых кадров Latent Optical Flow Diffusion Model (LOF-DM) синтезирует сложные и крупномасштабные оптические потоки, а MotionControlNet затем уточняет результаты деформации для повышения качества и управления генерацией промежуточных кадров. По сравнению с традиционной интерполяцией видеокадров мы достигаем 15-кратной интерполяции, обеспечивая разумное и непрерывное движение между соседними кадрами. Эксперименты показывают, что наш метод позволяет генерировать длинные видео с согласованным движением и внешним видом. Код и модели будут опубликованы после принятия статьи. Страница проекта: https://jiahaochen1.github.io/LumosFlow/
English
Long video generation has gained increasing attention due to its widespread
applications in fields such as entertainment and simulation. Despite advances,
synthesizing temporally coherent and visually compelling long sequences remains
a formidable challenge. Conventional approaches often synthesize long videos by
sequentially generating and concatenating short clips, or generating key frames
and then interpolate the intermediate frames in a hierarchical manner. However,
both of them still remain significant challenges, leading to issues such as
temporal repetition or unnatural transitions. In this paper, we revisit the
hierarchical long video generation pipeline and introduce LumosFlow, a
framework introduce motion guidance explicitly. Specifically, we first employ
the Large Motion Text-to-Video Diffusion Model (LMTV-DM) to generate key frames
with larger motion intervals, thereby ensuring content diversity in the
generated long videos. Given the complexity of interpolating contextual
transitions between key frames, we further decompose the intermediate frame
interpolation into motion generation and post-hoc refinement. For each pair of
key frames, the Latent Optical Flow Diffusion Model (LOF-DM) synthesizes
complex and large-motion optical flows, while MotionControlNet subsequently
refines the warped results to enhance quality and guide intermediate frame
generation. Compared with traditional video frame interpolation, we achieve 15x
interpolation, ensuring reasonable and continuous motion between adjacent
frames. Experiments show that our method can generate long videos with
consistent motion and appearance. Code and models will be made publicly
available upon acceptance. Our project page:
https://jiahaochen1.github.io/LumosFlow/