ObjectMover : Génération de mouvements d'objets avec a priori vidéo
ObjectMover: Generative Object Movement with Video Prior
March 11, 2025
Auteurs: Xin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi
cs.AI
Résumé
Aussi simple que cela puisse paraître, déplacer un objet vers un autre emplacement dans une image est, en réalité, une tâche complexe de retouche d'image qui nécessite de réharmoniser l'éclairage, d'ajuster la pose en fonction de la perspective, de combler précisément les régions occluses, et d'assurer une synchronisation cohérente des ombres et des réflexions tout en préservant l'identité de l'objet. Dans cet article, nous présentons ObjectMover, un modèle génératif capable de réaliser des déplacements d'objets dans des scènes hautement complexes. Notre idée clé est de modéliser cette tâche comme un problème de séquence à séquence et d'affiner un modèle de génération vidéo pour exploiter sa connaissance de la génération cohérente d'objets à travers les images vidéo. Nous montrons qu'avec cette approche, notre modèle est capable de s'adapter à des scénarios réels complexes, en gérant l'harmonisation d'éclairages extrêmes et le mouvement des effets liés aux objets. Comme les données à grande échelle pour le déplacement d'objets ne sont pas disponibles, nous construisons un pipeline de génération de données utilisant un moteur de jeu moderne pour synthétiser des paires de données de haute qualité. Nous proposons en outre une stratégie d'apprentissage multi-tâches qui permet d'entraîner le modèle sur des données vidéo réelles pour améliorer sa généralisation. À travers des expériences approfondies, nous démontrons qu'ObjectMover obtient des résultats exceptionnels et s'adapte bien aux scénarios réels.
English
Simple as it seems, moving an object to another location within an image is,
in fact, a challenging image-editing task that requires re-harmonizing the
lighting, adjusting the pose based on perspective, accurately filling occluded
regions, and ensuring coherent synchronization of shadows and reflections while
maintaining the object identity. In this paper, we present ObjectMover, a
generative model that can perform object movement in highly challenging scenes.
Our key insight is that we model this task as a sequence-to-sequence problem
and fine-tune a video generation model to leverage its knowledge of consistent
object generation across video frames. We show that with this approach, our
model is able to adjust to complex real-world scenarios, handling extreme
lighting harmonization and object effect movement. As large-scale data for
object movement are unavailable, we construct a data generation pipeline using
a modern game engine to synthesize high-quality data pairs. We further propose
a multi-task learning strategy that enables training on real-world video data
to improve the model generalization. Through extensive experiments, we
demonstrate that ObjectMover achieves outstanding results and adapts well to
real-world scenarios.