MotionRAG: Generación de Imagen a Video Aumentada con Recuperación de Movimiento
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
September 30, 2025
Autores: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI
Resumen
La generación de vídeo a partir de imágenes ha experimentado avances notables con el progreso de los modelos de difusión, aunque generar vídeos con movimiento realista sigue siendo un desafío significativo. Esta dificultad surge de la complejidad de modelar con precisión el movimiento, lo que implica capturar restricciones físicas, interacciones entre objetos y dinámicas específicas del dominio que no se generalizan fácilmente en diversos escenarios. Para abordar este problema, proponemos MotionRAG, un marco potenciado por recuperación que mejora el realismo del movimiento al adaptar prioridades de movimiento a partir de vídeos de referencia relevantes mediante la Adaptación de Movimiento Consciente del Contexto (CAMA). Las innovaciones técnicas clave incluyen: (i) una canalización basada en recuperación que extrae características de movimiento de alto nivel utilizando un codificador de vídeo y remuestreadores especializados para destilar representaciones semánticas del movimiento; (ii) un enfoque de aprendizaje en contexto para la adaptación del movimiento implementado mediante una arquitectura de transformador causal; (iii) un adaptador de inyección de movimiento basado en atención que integra de manera fluida las características de movimiento transferidas en modelos de difusión de vídeo preentrenados. Experimentos exhaustivos demuestran que nuestro método logra mejoras significativas en múltiples dominios y diversos modelos base, todo ello con un sobrecargo computacional mínimo durante la inferencia. Además, nuestro diseño modular permite la generalización zero-shot a nuevos dominios simplemente actualizando la base de datos de recuperación sin necesidad de reentrenar ningún componente. Esta investigación mejora la capacidad fundamental de los sistemas de generación de vídeo al permitir la recuperación y transferencia efectiva de prioridades de movimiento, facilitando la síntesis de dinámicas de movimiento realistas.
English
Image-to-video generation has made remarkable progress with the advancements
in diffusion models, yet generating videos with realistic motion remains highly
challenging. This difficulty arises from the complexity of accurately modeling
motion, which involves capturing physical constraints, object interactions, and
domain-specific dynamics that are not easily generalized across diverse
scenarios. To address this, we propose MotionRAG, a retrieval-augmented
framework that enhances motion realism by adapting motion priors from relevant
reference videos through Context-Aware Motion Adaptation (CAMA). The key
technical innovations include: (i) a retrieval-based pipeline extracting
high-level motion features using video encoder and specialized resamplers to
distill semantic motion representations; (ii) an in-context learning approach
for motion adaptation implemented through a causal transformer architecture;
(iii) an attention-based motion injection adapter that seamlessly integrates
transferred motion features into pretrained video diffusion models. Extensive
experiments demonstrate that our method achieves significant improvements
across multiple domains and various base models, all with negligible
computational overhead during inference. Furthermore, our modular design
enables zero-shot generalization to new domains by simply updating the
retrieval database without retraining any components. This research enhances
the core capability of video generation systems by enabling the effective
retrieval and transfer of motion priors, facilitating the synthesis of
realistic motion dynamics.