MotionRAG: Bewegungs-Retrieval-erweiterte Bild-zu-Video-Generierung
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
September 30, 2025
papers.authors: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI
papers.abstract
Die Bild-zu-Video-Generierung hat durch Fortschritte bei Diffusionsmodellen bemerkenswerte Fortschritte gemacht, doch die Erzeugung von Videos mit realistischer Bewegung bleibt äußerst anspruchsvoll. Diese Schwierigkeit ergibt sich aus der Komplexität, Bewegung präzise zu modellieren, was das Erfassen physikalischer Einschränkungen, Objektinteraktionen und domänenspezifischer Dynamiken umfasst, die sich nicht leicht über verschiedene Szenarien verallgemeinern lassen. Um dies zu adressieren, schlagen wir MotionRAG vor, ein retrieval-augmentiertes Framework, das die Bewegungsrealität verbessert, indem es Bewegungs-Priors aus relevanten Referenzvideos durch Context-Aware Motion Adaptation (CAMA) anpasst. Die wesentlichen technischen Innovationen umfassen: (i) eine Retrieval-basierte Pipeline, die hochrangige Bewegungsmerkmale mithilfe eines Video-Encoders und spezialisierter Resampler extrahiert, um semantische Bewegungsrepräsentationen zu destillieren; (ii) einen In-Context-Learning-Ansatz für die Bewegungsanpassung, der durch eine kausale Transformer-Architektur implementiert wird; (iii) einen auf Aufmerksamkeit basierenden Bewegungsinjektionsadapter, der übertragene Bewegungsmerkmale nahtlos in vortrainierte Video-Diffusionsmodelle integriert. Umfangreiche Experimente zeigen, dass unsere Methode signifikante Verbesserungen über mehrere Domänen und verschiedene Basismodelle hinweg erzielt, alles mit vernachlässigbarem Rechenaufwand während der Inferenz. Darüber hinaus ermöglicht unser modulares Design eine Zero-Shot-Generalisierung auf neue Domänen, indem einfach die Retrieval-Datenbank aktualisiert wird, ohne Komponenten neu zu trainieren. Diese Forschung verbessert die Kernfähigkeit von Video-Generierungssystemen, indem sie das effektive Retrieval und die Übertragung von Bewegungs-Priors ermöglicht und so die Synthese realistischer Bewegungsdynamiken erleichtert.
English
Image-to-video generation has made remarkable progress with the advancements
in diffusion models, yet generating videos with realistic motion remains highly
challenging. This difficulty arises from the complexity of accurately modeling
motion, which involves capturing physical constraints, object interactions, and
domain-specific dynamics that are not easily generalized across diverse
scenarios. To address this, we propose MotionRAG, a retrieval-augmented
framework that enhances motion realism by adapting motion priors from relevant
reference videos through Context-Aware Motion Adaptation (CAMA). The key
technical innovations include: (i) a retrieval-based pipeline extracting
high-level motion features using video encoder and specialized resamplers to
distill semantic motion representations; (ii) an in-context learning approach
for motion adaptation implemented through a causal transformer architecture;
(iii) an attention-based motion injection adapter that seamlessly integrates
transferred motion features into pretrained video diffusion models. Extensive
experiments demonstrate that our method achieves significant improvements
across multiple domains and various base models, all with negligible
computational overhead during inference. Furthermore, our modular design
enables zero-shot generalization to new domains by simply updating the
retrieval database without retraining any components. This research enhances
the core capability of video generation systems by enabling the effective
retrieval and transfer of motion priors, facilitating the synthesis of
realistic motion dynamics.