MotionRAG: 동적 검색 강화 이미지-비디오 생성
MotionRAG: Motion Retrieval-Augmented Image-to-Video Generation
September 30, 2025
저자: Chenhui Zhu, Yilu Wu, Shuai Wang, Gangshan Wu, Limin Wang
cs.AI
초록
이미지-비디오 생성은 확산 모델의 발전으로 인해 상당한 진전을 이루었으나, 사실적인 움직임을 가진 비디오를 생성하는 것은 여전히 매우 어려운 과제로 남아 있습니다. 이러한 어려움은 움직임을 정확하게 모델링하는 데 있어 물리적 제약, 객체 간 상호작용, 그리고 다양한 시나리오에 걸쳐 일반화하기 어려운 도메인 특정 역학을 포착해야 하는 복잡성에서 비롯됩니다. 이를 해결하기 위해, 우리는 MotionRAG를 제안합니다. 이는 Context-Aware Motion Adaptation (CAMA)을 통해 관련 참조 비디오로부터 움직임 사전 지식을 적응시켜 움직임의 사실성을 향상시키는 검색 강화 프레임워크입니다. 주요 기술 혁신은 다음과 같습니다: (i) 비디오 인코더와 전용 리샘플러를 사용하여 고수준 움직임 특징을 추출하고 의미적 움직임 표현을 정제하는 검색 기반 파이프라인; (ii) 인-컨텍스트 학습 접근법을 통해 구현된 움직임 적응을 위한 인과적 트랜스포머 아키텍처; (iii) 전이된 움직임 특징을 사전 학습된 비디오 확산 모델에 원활하게 통합하는 어텐션 기반 움직임 주입 어댑터. 광범위한 실험을 통해 우리의 방법이 다양한 도메인과 여러 기본 모델에 걸쳐 상당한 개선을 달성하며, 추론 과정에서의 계산 오버헤드는 무시할 수준임을 입증했습니다. 또한, 우리의 모듈식 설계는 검색 데이터베이스를 업데이트함으로써 어떠한 컴포넌트도 재학습 없이 새로운 도메인에 대한 제로샷 일반화를 가능하게 합니다. 이 연구는 움직임 사전 지식의 효과적인 검색과 전이를 가능하게 함으로써 비디오 생성 시스템의 핵심 역량을 강화하고, 사실적인 움직임 역학의 합성을 용이하게 합니다.
English
Image-to-video generation has made remarkable progress with the advancements
in diffusion models, yet generating videos with realistic motion remains highly
challenging. This difficulty arises from the complexity of accurately modeling
motion, which involves capturing physical constraints, object interactions, and
domain-specific dynamics that are not easily generalized across diverse
scenarios. To address this, we propose MotionRAG, a retrieval-augmented
framework that enhances motion realism by adapting motion priors from relevant
reference videos through Context-Aware Motion Adaptation (CAMA). The key
technical innovations include: (i) a retrieval-based pipeline extracting
high-level motion features using video encoder and specialized resamplers to
distill semantic motion representations; (ii) an in-context learning approach
for motion adaptation implemented through a causal transformer architecture;
(iii) an attention-based motion injection adapter that seamlessly integrates
transferred motion features into pretrained video diffusion models. Extensive
experiments demonstrate that our method achieves significant improvements
across multiple domains and various base models, all with negligible
computational overhead during inference. Furthermore, our modular design
enables zero-shot generalization to new domains by simply updating the
retrieval database without retraining any components. This research enhances
the core capability of video generation systems by enabling the effective
retrieval and transfer of motion priors, facilitating the synthesis of
realistic motion dynamics.