MotionRAG : Génération d'images vers vidéo augmentée par la récupération de mouvements

papers.abstract

La génération vidéo à partir d'images a réalisé des progrès remarquables grâce aux avancées des modèles de diffusion, mais la création de vidéos avec des mouvements réalistes reste un défi majeur. Cette difficulté découle de la complexité à modéliser avec précision le mouvement, qui implique de capturer des contraintes physiques, des interactions entre objets et des dynamiques spécifiques à un domaine, difficiles à généraliser à travers divers scénarios. Pour y remédier, nous proposons MotionRAG, un cadre augmenté par récupération qui améliore le réalisme des mouvements en adaptant des a priori de mouvement à partir de vidéos de référence pertinentes via une Adaptation Contextuelle des Mouvements (CAMA). Les innovations techniques clés incluent : (i) un pipeline basé sur la récupération extrait des caractéristiques de mouvement de haut niveau à l'aide d'un encodeur vidéo et de rééchantillonneurs spécialisés pour distiller des représentations sémantiques du mouvement ; (ii) une approche d'apprentissage en contexte pour l'adaptation des mouvements, mise en œuvre via une architecture de transformateur causal ; (iii) un adaptateur d'injection de mouvement basé sur l'attention qui intègre de manière fluide les caractéristiques de mouvement transférées dans des modèles de diffusion vidéo pré-entraînés. Des expériences approfondies démontrent que notre méthode obtient des améliorations significatives dans plusieurs domaines et avec divers modèles de base, le tout avec une surcharge computationnelle négligeable lors de l'inférence. De plus, notre conception modulaire permet une généralisation zero-shot à de nouveaux domaines en mettant simplement à jour la base de données de récupération sans avoir à réentraîner les composants. Cette recherche renforce la capacité fondamentale des systèmes de génération vidéo en permettant la récupération et le transfert efficaces d'a priori de mouvement, facilitant ainsi la synthèse de dynamiques de mouvement réalistes.

English

Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.

MotionRAG : Génération d'images vers vidéo augmentée par la récupération de mouvements

MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

papers.abstract

Support