ObjectMover: Generatieve Objectbeweging met Videoprior
ObjectMover: Generative Object Movement with Video Prior
March 11, 2025
Auteurs: Xin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi
cs.AI
Samenvatting
Hoe eenvoudig het ook lijkt, het verplaatsen van een object naar een andere locatie binnen een afbeelding is in feite een uitdagende beeldbewerkingstaak die het herharmoniseren van de belichting, het aanpassen van de pose op basis van perspectief, het nauwkeurig invullen van verborgen gebieden en het zorgen voor een coherente synchronisatie van schaduwen en reflecties vereist, terwijl de objectidentiteit behouden blijft. In dit artikel presenteren we ObjectMover, een generatief model dat objectverplaatsing kan uitvoeren in zeer uitdagende scènes. Onze belangrijkste inzicht is dat we deze taak modelleren als een sequentie-naar-sequentieprobleem en een videogeneratiemodel finetunen om gebruik te maken van zijn kennis over consistente objectgeneratie over videoframes. We laten zien dat ons model met deze aanpak kan inspelen op complexe real-world scenario's, waarbij extreme belichtingsharmonisatie en objecteffectverplaatsing worden afgehandeld. Omdat grootschalige gegevens voor objectverplaatsing niet beschikbaar zijn, construeren we een datageneratiepijplijn met behulp van een moderne game-engine om hoogwaardige gegevensparen te synthetiseren. We stellen verder een multi-task leerstrategie voor die training op real-world videogegevens mogelijk maakt om de modelgeneralisatie te verbeteren. Door middel van uitgebreide experimenten tonen we aan dat ObjectMover uitstekende resultaten behaalt en zich goed aanpast aan real-world scenario's.
English
Simple as it seems, moving an object to another location within an image is,
in fact, a challenging image-editing task that requires re-harmonizing the
lighting, adjusting the pose based on perspective, accurately filling occluded
regions, and ensuring coherent synchronization of shadows and reflections while
maintaining the object identity. In this paper, we present ObjectMover, a
generative model that can perform object movement in highly challenging scenes.
Our key insight is that we model this task as a sequence-to-sequence problem
and fine-tune a video generation model to leverage its knowledge of consistent
object generation across video frames. We show that with this approach, our
model is able to adjust to complex real-world scenarios, handling extreme
lighting harmonization and object effect movement. As large-scale data for
object movement are unavailable, we construct a data generation pipeline using
a modern game engine to synthesize high-quality data pairs. We further propose
a multi-task learning strategy that enables training on real-world video data
to improve the model generalization. Through extensive experiments, we
demonstrate that ObjectMover achieves outstanding results and adapts well to
real-world scenarios.Summary
AI-Generated Summary