MotionRAG : Génération d'images vers vidéo augmentée par la récupération de mouvements
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
September 30, 2025
papers.authors: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI
papers.abstract
La génération vidéo à partir d'images a réalisé des progrès remarquables grâce aux avancées des modèles de diffusion, mais la création de vidéos avec des mouvements réalistes reste un défi majeur. Cette difficulté découle de la complexité à modéliser avec précision le mouvement, qui implique de capturer des contraintes physiques, des interactions entre objets et des dynamiques spécifiques à un domaine, difficiles à généraliser à travers divers scénarios. Pour y remédier, nous proposons MotionRAG, un cadre augmenté par récupération qui améliore le réalisme des mouvements en adaptant des a priori de mouvement à partir de vidéos de référence pertinentes via une Adaptation Contextuelle des Mouvements (CAMA). Les innovations techniques clés incluent : (i) un pipeline basé sur la récupération extrait des caractéristiques de mouvement de haut niveau à l'aide d'un encodeur vidéo et de rééchantillonneurs spécialisés pour distiller des représentations sémantiques du mouvement ; (ii) une approche d'apprentissage en contexte pour l'adaptation des mouvements, mise en œuvre via une architecture de transformateur causal ; (iii) un adaptateur d'injection de mouvement basé sur l'attention qui intègre de manière fluide les caractéristiques de mouvement transférées dans des modèles de diffusion vidéo pré-entraînés. Des expériences approfondies démontrent que notre méthode obtient des améliorations significatives dans plusieurs domaines et avec divers modèles de base, le tout avec une surcharge computationnelle négligeable lors de l'inférence. De plus, notre conception modulaire permet une généralisation zero-shot à de nouveaux domaines en mettant simplement à jour la base de données de récupération sans avoir à réentraîner les composants. Cette recherche renforce la capacité fondamentale des systèmes de génération vidéo en permettant la récupération et le transfert efficaces d'a priori de mouvement, facilitant ainsi la synthèse de dynamiques de mouvement réalistes.
English
Image-to-video generation has made remarkable progress with the advancements
in diffusion models, yet generating videos with realistic motion remains highly
challenging. This difficulty arises from the complexity of accurately modeling
motion, which involves capturing physical constraints, object interactions, and
domain-specific dynamics that are not easily generalized across diverse
scenarios. To address this, we propose MotionRAG, a retrieval-augmented
framework that enhances motion realism by adapting motion priors from relevant
reference videos through Context-Aware Motion Adaptation (CAMA). The key
technical innovations include: (i) a retrieval-based pipeline extracting
high-level motion features using video encoder and specialized resamplers to
distill semantic motion representations; (ii) an in-context learning approach
for motion adaptation implemented through a causal transformer architecture;
(iii) an attention-based motion injection adapter that seamlessly integrates
transferred motion features into pretrained video diffusion models. Extensive
experiments demonstrate that our method achieves significant improvements
across multiple domains and various base models, all with negligible
computational overhead during inference. Furthermore, our modular design
enables zero-shot generalization to new domains by simply updating the
retrieval database without retraining any components. This research enhances
the core capability of video generation systems by enabling the effective
retrieval and transfer of motion priors, facilitating the synthesis of
realistic motion dynamics.