MotionRAG: Bewegungs-Retrieval-erweiterte Bild-zu-Video-Generierung

papers.abstract

Die Bild-zu-Video-Generierung hat durch Fortschritte bei Diffusionsmodellen bemerkenswerte Fortschritte gemacht, doch die Erzeugung von Videos mit realistischer Bewegung bleibt äußerst anspruchsvoll. Diese Schwierigkeit ergibt sich aus der Komplexität, Bewegung präzise zu modellieren, was das Erfassen physikalischer Einschränkungen, Objektinteraktionen und domänenspezifischer Dynamiken umfasst, die sich nicht leicht über verschiedene Szenarien verallgemeinern lassen. Um dies zu adressieren, schlagen wir MotionRAG vor, ein retrieval-augmentiertes Framework, das die Bewegungsrealität verbessert, indem es Bewegungs-Priors aus relevanten Referenzvideos durch Context-Aware Motion Adaptation (CAMA) anpasst. Die wesentlichen technischen Innovationen umfassen: (i) eine Retrieval-basierte Pipeline, die hochrangige Bewegungsmerkmale mithilfe eines Video-Encoders und spezialisierter Resampler extrahiert, um semantische Bewegungsrepräsentationen zu destillieren; (ii) einen In-Context-Learning-Ansatz für die Bewegungsanpassung, der durch eine kausale Transformer-Architektur implementiert wird; (iii) einen auf Aufmerksamkeit basierenden Bewegungsinjektionsadapter, der übertragene Bewegungsmerkmale nahtlos in vortrainierte Video-Diffusionsmodelle integriert. Umfangreiche Experimente zeigen, dass unsere Methode signifikante Verbesserungen über mehrere Domänen und verschiedene Basismodelle hinweg erzielt, alles mit vernachlässigbarem Rechenaufwand während der Inferenz. Darüber hinaus ermöglicht unser modulares Design eine Zero-Shot-Generalisierung auf neue Domänen, indem einfach die Retrieval-Datenbank aktualisiert wird, ohne Komponenten neu zu trainieren. Diese Forschung verbessert die Kernfähigkeit von Video-Generierungssystemen, indem sie das effektive Retrieval und die Übertragung von Bewegungs-Priors ermöglicht und so die Synthese realistischer Bewegungsdynamiken erleichtert.

English

Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.

MotionRAG: Bewegungs-Retrieval-erweiterte Bild-zu-Video-Generierung

MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

papers.abstract

Support