MotionRAG: Генерация видео из изображений с расширением на основе извлечения движения
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
September 30, 2025
Авторы: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI
Аннотация
Генерация видео из изображений достигла значительных успехов благодаря развитию диффузионных моделей, однако создание видео с реалистичным движением остается крайне сложной задачей. Эта сложность обусловлена трудностями точного моделирования движения, которое требует учета физических ограничений, взаимодействий объектов и специфической динамики, характерной для различных сценариев, что нелегко обобщить. Для решения этой проблемы мы предлагаем MotionRAG — фреймворк, усиленный механизмом извлечения данных, который повышает реалистичность движения за счет адаптации приоритетов движения из релевантных эталонных видео с помощью контекстно-зависимой адаптации движения (CAMA). Ключевые технические инновации включают: (i) конвейер на основе извлечения данных, который извлекает высокоуровневые признаки движения с использованием видеокодера и специализированных ресемплеров для получения семантических представлений движения; (ii) подход к адаптации движения через обучение в контексте, реализованный с помощью архитектуры причинного трансформера; (iii) адаптер для внедрения движения на основе механизма внимания, который бесшовно интегрирует перенесенные признаки движения в предобученные диффузионные модели видео. Многочисленные эксперименты демонстрируют, что наш метод обеспечивает значительные улучшения в различных областях и на различных базовых моделях, при этом с минимальными вычислительными затратами на этапе вывода. Кроме того, модульная конструкция позволяет обобщать на новые области без дообучения, просто обновляя базу данных для извлечения. Это исследование расширяет ключевые возможности систем генерации видео, обеспечивая эффективное извлечение и перенос приоритетов движения, что способствует синтезу реалистичной динамики движения.
English
Image-to-video generation has made remarkable progress with the advancements
in diffusion models, yet generating videos with realistic motion remains highly
challenging. This difficulty arises from the complexity of accurately modeling
motion, which involves capturing physical constraints, object interactions, and
domain-specific dynamics that are not easily generalized across diverse
scenarios. To address this, we propose MotionRAG, a retrieval-augmented
framework that enhances motion realism by adapting motion priors from relevant
reference videos through Context-Aware Motion Adaptation (CAMA). The key
technical innovations include: (i) a retrieval-based pipeline extracting
high-level motion features using video encoder and specialized resamplers to
distill semantic motion representations; (ii) an in-context learning approach
for motion adaptation implemented through a causal transformer architecture;
(iii) an attention-based motion injection adapter that seamlessly integrates
transferred motion features into pretrained video diffusion models. Extensive
experiments demonstrate that our method achieves significant improvements
across multiple domains and various base models, all with negligible
computational overhead during inference. Furthermore, our modular design
enables zero-shot generalization to new domains by simply updating the
retrieval database without retraining any components. This research enhances
the core capability of video generation systems by enabling the effective
retrieval and transfer of motion priors, facilitating the synthesis of
realistic motion dynamics.