MotionRAG: Generazione Video da Immagine Potenziata dal Recupero del Movimento
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
September 30, 2025
Autori: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI
Abstract
La generazione di video da immagini ha compiuto progressi significativi con i recenti sviluppi nei modelli di diffusione, ma la creazione di video con movimenti realistici rimane una sfida complessa. Questa difficoltà deriva dalla complessità nel modellare accuratamente il movimento, che implica la cattura di vincoli fisici, interazioni tra oggetti e dinamiche specifiche del dominio che non sono facilmente generalizzabili in scenari diversi. Per affrontare questo problema, proponiamo MotionRAG, un framework potenziato dal retrieval che migliora il realismo del movimento adattando prior di movimento da video di riferimento rilevanti attraverso l'Adattamento Contestuale del Movimento (CAMA). Le principali innovazioni tecniche includono: (i) una pipeline basata su retrieval che estrae caratteristiche di movimento di alto livello utilizzando un encoder video e resampler specializzati per distillare rappresentazioni semantiche del movimento; (ii) un approccio di apprendimento in-context per l'adattamento del movimento implementato attraverso un'architettura transformer causale; (iii) un adattatore basato su attenzione per l'iniezione del movimento che integra in modo fluido le caratteristiche di movimento trasferite nei modelli di diffusione video pre-addestrati. Esperimenti estensivi dimostrano che il nostro metodo ottiene miglioramenti significativi in molteplici domini e su vari modelli di base, con un sovraccarico computazionale trascurabile durante l'inferenza. Inoltre, il design modulare consente una generalizzazione zero-shot a nuovi domini semplicemente aggiornando il database di retrieval senza dover riaddestrare alcun componente. Questa ricerca potenzia la capacità fondamentale dei sistemi di generazione video, abilitando il recupero e il trasferimento efficace di prior di movimento e facilitando la sintesi di dinamiche di movimento realistiche.
English
Image-to-video generation has made remarkable progress with the advancements
in diffusion models, yet generating videos with realistic motion remains highly
challenging. This difficulty arises from the complexity of accurately modeling
motion, which involves capturing physical constraints, object interactions, and
domain-specific dynamics that are not easily generalized across diverse
scenarios. To address this, we propose MotionRAG, a retrieval-augmented
framework that enhances motion realism by adapting motion priors from relevant
reference videos through Context-Aware Motion Adaptation (CAMA). The key
technical innovations include: (i) a retrieval-based pipeline extracting
high-level motion features using video encoder and specialized resamplers to
distill semantic motion representations; (ii) an in-context learning approach
for motion adaptation implemented through a causal transformer architecture;
(iii) an attention-based motion injection adapter that seamlessly integrates
transferred motion features into pretrained video diffusion models. Extensive
experiments demonstrate that our method achieves significant improvements
across multiple domains and various base models, all with negligible
computational overhead during inference. Furthermore, our modular design
enables zero-shot generalization to new domains by simply updating the
retrieval database without retraining any components. This research enhances
the core capability of video generation systems by enabling the effective
retrieval and transfer of motion priors, facilitating the synthesis of
realistic motion dynamics.