MotionRAG: Geração de Vídeo a partir de Imagem Aprimorada por Recuperação de Movimento

Resumo

A geração de vídeos a partir de imagens tem alcançado progressos notáveis com os avanços nos modelos de difusão, mas a criação de vídeos com movimentos realistas continua sendo um desafio significativo. Essa dificuldade surge da complexidade de modelar o movimento com precisão, o que envolve capturar restrições físicas, interações entre objetos e dinâmicas específicas de domínio que não são facilmente generalizadas em cenários diversos. Para abordar esse problema, propomos o MotionRAG, uma estrutura aprimorada por recuperação que aumenta o realismo do movimento ao adaptar prioridades de movimento a partir de vídeos de referência relevantes por meio da Adaptação de Movimento Consciente do Contexto (CAMA). As principais inovações técnicas incluem: (i) um pipeline baseado em recuperação que extrai características de movimento de alto nível usando um codificador de vídeo e resamplers especializados para destilar representações semânticas de movimento; (ii) uma abordagem de aprendizado em contexto para adaptação de movimento implementada por meio de uma arquitetura de transformador causal; (iii) um adaptador de injeção de movimento baseado em atenção que integra de forma contínua características de movimento transferidas em modelos de difusão de vídeo pré-treinados. Experimentos extensivos demonstram que nosso método alcança melhorias significativas em múltiplos domínios e diversos modelos base, tudo com um custo computacional insignificante durante a inferência. Além disso, nosso design modular permite generalização zero-shot para novos domínios simplesmente atualizando o banco de dados de recuperação sem a necessidade de retreinar qualquer componente. Esta pesquisa aprimora a capacidade central dos sistemas de geração de vídeos ao permitir a recuperação e transferência eficazes de prioridades de movimento, facilitando a síntese de dinâmicas de movimento realistas.

English

Image-to-video generation has made remarkable progress with the advancements in diffusion models, yet generating videos with realistic motion remains highly challenging. This difficulty arises from the complexity of accurately modeling motion, which involves capturing physical constraints, object interactions, and domain-specific dynamics that are not easily generalized across diverse scenarios. To address this, we propose MotionRAG, a retrieval-augmented framework that enhances motion realism by adapting motion priors from relevant reference videos through Context-Aware Motion Adaptation (CAMA). The key technical innovations include: (i) a retrieval-based pipeline extracting high-level motion features using video encoder and specialized resamplers to distill semantic motion representations; (ii) an in-context learning approach for motion adaptation implemented through a causal transformer architecture; (iii) an attention-based motion injection adapter that seamlessly integrates transferred motion features into pretrained video diffusion models. Extensive experiments demonstrate that our method achieves significant improvements across multiple domains and various base models, all with negligible computational overhead during inference. Furthermore, our modular design enables zero-shot generalization to new domains by simply updating the retrieval database without retraining any components. This research enhances the core capability of video generation systems by enabling the effective retrieval and transfer of motion priors, facilitating the synthesis of realistic motion dynamics.

MotionRAG: Geração de Vídeo a partir de Imagem Aprimorada por Recuperação de Movimento

MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation

Resumo

Support