MotionRAG: Geração de Vídeo a partir de Imagem Aprimorada por Recuperação de Movimento
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
September 30, 2025
Autores: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI
Resumo
A geração de vídeos a partir de imagens tem alcançado progressos notáveis com os avanços nos modelos de difusão, mas a criação de vídeos com movimentos realistas continua sendo um desafio significativo. Essa dificuldade surge da complexidade de modelar o movimento com precisão, o que envolve capturar restrições físicas, interações entre objetos e dinâmicas específicas de domínio que não são facilmente generalizadas em cenários diversos. Para abordar esse problema, propomos o MotionRAG, uma estrutura aprimorada por recuperação que aumenta o realismo do movimento ao adaptar prioridades de movimento a partir de vídeos de referência relevantes por meio da Adaptação de Movimento Consciente do Contexto (CAMA). As principais inovações técnicas incluem: (i) um pipeline baseado em recuperação que extrai características de movimento de alto nível usando um codificador de vídeo e resamplers especializados para destilar representações semânticas de movimento; (ii) uma abordagem de aprendizado em contexto para adaptação de movimento implementada por meio de uma arquitetura de transformador causal; (iii) um adaptador de injeção de movimento baseado em atenção que integra de forma contínua características de movimento transferidas em modelos de difusão de vídeo pré-treinados. Experimentos extensivos demonstram que nosso método alcança melhorias significativas em múltiplos domínios e diversos modelos base, tudo com um custo computacional insignificante durante a inferência. Além disso, nosso design modular permite generalização zero-shot para novos domínios simplesmente atualizando o banco de dados de recuperação sem a necessidade de retreinar qualquer componente. Esta pesquisa aprimora a capacidade central dos sistemas de geração de vídeos ao permitir a recuperação e transferência eficazes de prioridades de movimento, facilitando a síntese de dinâmicas de movimento realistas.
English
Image-to-video generation has made remarkable progress with the advancements
in diffusion models, yet generating videos with realistic motion remains highly
challenging. This difficulty arises from the complexity of accurately modeling
motion, which involves capturing physical constraints, object interactions, and
domain-specific dynamics that are not easily generalized across diverse
scenarios. To address this, we propose MotionRAG, a retrieval-augmented
framework that enhances motion realism by adapting motion priors from relevant
reference videos through Context-Aware Motion Adaptation (CAMA). The key
technical innovations include: (i) a retrieval-based pipeline extracting
high-level motion features using video encoder and specialized resamplers to
distill semantic motion representations; (ii) an in-context learning approach
for motion adaptation implemented through a causal transformer architecture;
(iii) an attention-based motion injection adapter that seamlessly integrates
transferred motion features into pretrained video diffusion models. Extensive
experiments demonstrate that our method achieves significant improvements
across multiple domains and various base models, all with negligible
computational overhead during inference. Furthermore, our modular design
enables zero-shot generalization to new domains by simply updating the
retrieval database without retraining any components. This research enhances
the core capability of video generation systems by enabling the effective
retrieval and transfer of motion priors, facilitating the synthesis of
realistic motion dynamics.