ChatPaper.aiChatPaper

MotionRAG: Motion Retrieval-Augmenteerde Beeld-naar-Video Generatie

MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

September 30, 2025
Auteurs: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI

Samenvatting

Beeld-naar-video-generatie heeft aanzienlijke vooruitgang geboekt met de ontwikkelingen in diffusiemodellen, maar het genereren van video's met realistische beweging blijft zeer uitdagend. Deze moeilijkheid ontstaat door de complexiteit van het nauwkeurig modelleren van beweging, wat het vastleggen van fysieke beperkingen, objectinteracties en domeinspecifieke dynamiek omvat die niet gemakkelijk kunnen worden gegeneraliseerd over diverse scenario's. Om dit aan te pakken, stellen we MotionRAG voor, een retrieval-augmented raamwerk dat de realistische beweging verbetert door bewegingvoorafkennis aan te passen vanuit relevante referentievideo's via Context-Aware Motion Adaptation (CAMA). De belangrijkste technische innovaties omvatten: (i) een retrieval-gebaseerde pijplijn die hoogwaardige bewegingskenmerken extraheert met behulp van een video-encoder en gespecialiseerde resamplers om semantische bewegingsrepresentaties te destilleren; (ii) een in-context leerbenadering voor bewegingaanpassing geïmplementeerd via een causale transformer-architectuur; (iii) een aandacht-gebaseerde beweginginjectie-adapter die overgedragen bewegingskenmerken naadloos integreert in vooraf getrainde videodiffusiemodellen. Uitgebreide experimenten tonen aan dat onze methode aanzienlijke verbeteringen bereikt over meerdere domeinen en verschillende basismodellen, allemaal met verwaarloosbare rekenkosten tijdens inferentie. Bovendien maakt ons modulaire ontwerp zero-shot generalisatie naar nieuwe domeinen mogelijk door simpelweg de retrievabledatabase bij te werken zonder enige componenten opnieuw te trainen. Dit onderzoek verbetert de kerncapaciteit van videogeneratiesystemen door het effectief ophalen en overdragen van bewegingvoorafkennis mogelijk te maken, wat de synthese van realistische bewegingsdynamiek vergemakkelijkt.
English
Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.
PDF192October 1, 2025