ObjectMover: 비디오 사전 지식을 활용한 생성적 객체 이동
ObjectMover: Generative Object Movement with Video Prior
March 11, 2025
저자: Xin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi
cs.AI
초록
단순해 보이지만, 이미지 내에서 객체를 다른 위치로 이동시키는 작업은 사실상 도전적인 이미지 편집 작업으로, 조명 재조정, 원근법에 따른 포즈 조정, 가려진 영역의 정확한 채우기, 그림자와 반사의 일관된 동기화를 보장하면서도 객체의 정체성을 유지해야 합니다. 본 논문에서는 이러한 도전적인 장면에서 객체 이동을 수행할 수 있는 생성 모델인 ObjectMover를 소개합니다. 우리의 핵심 통찰은 이 작업을 시퀀스-투-시퀀스 문제로 모델링하고 비디오 생성 모델을 미세 조정하여 비디오 프레임 간 일관된 객체 생성 지식을 활용하는 것입니다. 이 접근 방식을 통해 우리의 모델이 복잡한 실제 시나리오에 적응하고, 극단적인 조명 조정 및 객체 효과 이동을 처리할 수 있음을 보여줍니다. 객체 이동을 위한 대규모 데이터가 부재하므로, 우리는 현대 게임 엔진을 사용하여 고품질 데이터 쌍을 합성하는 데이터 생성 파이프라인을 구축했습니다. 또한, 모델의 일반화를 개선하기 위해 실제 비디오 데이터에 대한 학습을 가능하게 하는 다중 작업 학습 전략을 제안합니다. 광범위한 실험을 통해 ObjectMover가 우수한 결과를 달성하고 실제 시나리오에 잘 적응함을 입증합니다.
English
Simple as it seems, moving an object to another location within an image is,
in fact, a challenging image-editing task that requires re-harmonizing the
lighting, adjusting the pose based on perspective, accurately filling occluded
regions, and ensuring coherent synchronization of shadows and reflections while
maintaining the object identity. In this paper, we present ObjectMover, a
generative model that can perform object movement in highly challenging scenes.
Our key insight is that we model this task as a sequence-to-sequence problem
and fine-tune a video generation model to leverage its knowledge of consistent
object generation across video frames. We show that with this approach, our
model is able to adjust to complex real-world scenarios, handling extreme
lighting harmonization and object effect movement. As large-scale data for
object movement are unavailable, we construct a data generation pipeline using
a modern game engine to synthesize high-quality data pairs. We further propose
a multi-task learning strategy that enables training on real-world video data
to improve the model generalization. Through extensive experiments, we
demonstrate that ObjectMover achieves outstanding results and adapts well to
real-world scenarios.Summary
AI-Generated Summary