ChatPaper.aiChatPaper

MotionRAG: Генерация видео из изображений с расширением на основе извлечения движения

MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

September 30, 2025
Авторы: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI

Аннотация

Генерация видео из изображений достигла значительных успехов благодаря развитию диффузионных моделей, однако создание видео с реалистичным движением остается крайне сложной задачей. Эта сложность обусловлена трудностями точного моделирования движения, которое требует учета физических ограничений, взаимодействий объектов и специфической динамики, характерной для различных сценариев, что нелегко обобщить. Для решения этой проблемы мы предлагаем MotionRAG — фреймворк, усиленный механизмом извлечения данных, который повышает реалистичность движения за счет адаптации приоритетов движения из релевантных эталонных видео с помощью контекстно-зависимой адаптации движения (CAMA). Ключевые технические инновации включают: (i) конвейер на основе извлечения данных, который извлекает высокоуровневые признаки движения с использованием видеокодера и специализированных ресемплеров для получения семантических представлений движения; (ii) подход к адаптации движения через обучение в контексте, реализованный с помощью архитектуры причинного трансформера; (iii) адаптер для внедрения движения на основе механизма внимания, который бесшовно интегрирует перенесенные признаки движения в предобученные диффузионные модели видео. Многочисленные эксперименты демонстрируют, что наш метод обеспечивает значительные улучшения в различных областях и на различных базовых моделях, при этом с минимальными вычислительными затратами на этапе вывода. Кроме того, модульная конструкция позволяет обобщать на новые области без дообучения, просто обновляя базу данных для извлечения. Это исследование расширяет ключевые возможности систем генерации видео, обеспечивая эффективное извлечение и перенос приоритетов движения, что способствует синтезу реалистичной динамики движения.
English
Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.
PDF111October 1, 2025