MotionRAG: Generación de Imagen a Video Aumentada con Recuperación de Movimiento

Resumen

La generación de vídeo a partir de imágenes ha experimentado avances notables con el progreso de los modelos de difusión, aunque generar vídeos con movimiento realista sigue siendo un desafío significativo. Esta dificultad surge de la complejidad de modelar con precisión el movimiento, lo que implica capturar restricciones físicas, interacciones entre objetos y dinámicas específicas del dominio que no se generalizan fácilmente en diversos escenarios. Para abordar este problema, proponemos MotionRAG, un marco potenciado por recuperación que mejora el realismo del movimiento al adaptar prioridades de movimiento a partir de vídeos de referencia relevantes mediante la Adaptación de Movimiento Consciente del Contexto (CAMA). Las innovaciones técnicas clave incluyen: (i) una canalización basada en recuperación que extrae características de movimiento de alto nivel utilizando un codificador de vídeo y remuestreadores especializados para destilar representaciones semánticas del movimiento; (ii) un enfoque de aprendizaje en contexto para la adaptación del movimiento implementado mediante una arquitectura de transformador causal; (iii) un adaptador de inyección de movimiento basado en atención que integra de manera fluida las características de movimiento transferidas en modelos de difusión de vídeo preentrenados. Experimentos exhaustivos demuestran que nuestro método logra mejoras significativas en múltiples dominios y diversos modelos base, todo ello con un sobrecargo computacional mínimo durante la inferencia. Además, nuestro diseño modular permite la generalización zero-shot a nuevos dominios simplemente actualizando la base de datos de recuperación sin necesidad de reentrenar ningún componente. Esta investigación mejora la capacidad fundamental de los sistemas de generación de vídeo al permitir la recuperación y transferencia efectiva de prioridades de movimiento, facilitando la síntesis de dinámicas de movimiento realistas.

English

Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.

MotionRAG: Generación de Imagen a Video Aumentada con Recuperación de Movimiento

MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

Resumen

Support