ChatPaper.aiChatPaper

ObjectMover : Génération de mouvements d'objets avec a priori vidéo

ObjectMover: Generative Object Movement with Video Prior

March 11, 2025
Auteurs: Xin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi
cs.AI

Résumé

Aussi simple que cela puisse paraître, déplacer un objet vers un autre emplacement dans une image est, en réalité, une tâche complexe de retouche d'image qui nécessite de réharmoniser l'éclairage, d'ajuster la pose en fonction de la perspective, de combler précisément les régions occluses, et d'assurer une synchronisation cohérente des ombres et des réflexions tout en préservant l'identité de l'objet. Dans cet article, nous présentons ObjectMover, un modèle génératif capable de réaliser des déplacements d'objets dans des scènes hautement complexes. Notre idée clé est de modéliser cette tâche comme un problème de séquence à séquence et d'affiner un modèle de génération vidéo pour exploiter sa connaissance de la génération cohérente d'objets à travers les images vidéo. Nous montrons qu'avec cette approche, notre modèle est capable de s'adapter à des scénarios réels complexes, en gérant l'harmonisation d'éclairages extrêmes et le mouvement des effets liés aux objets. Comme les données à grande échelle pour le déplacement d'objets ne sont pas disponibles, nous construisons un pipeline de génération de données utilisant un moteur de jeu moderne pour synthétiser des paires de données de haute qualité. Nous proposons en outre une stratégie d'apprentissage multi-tâches qui permet d'entraîner le modèle sur des données vidéo réelles pour améliorer sa généralisation. À travers des expériences approfondies, nous démontrons qu'ObjectMover obtient des résultats exceptionnels et s'adapte bien aux scénarios réels.
English
Simple as it seems, moving an object to another location within an image is, in fact, a challenging image-editing task that requires re-harmonizing the lighting, adjusting the pose based on perspective, accurately filling occluded regions, and ensuring coherent synchronization of shadows and reflections while maintaining the object identity. In this paper, we present ObjectMover, a generative model that can perform object movement in highly challenging scenes. Our key insight is that we model this task as a sequence-to-sequence problem and fine-tune a video generation model to leverage its knowledge of consistent object generation across video frames. We show that with this approach, our model is able to adjust to complex real-world scenarios, handling extreme lighting harmonization and object effect movement. As large-scale data for object movement are unavailable, we construct a data generation pipeline using a modern game engine to synthesize high-quality data pairs. We further propose a multi-task learning strategy that enables training on real-world video data to improve the model generalization. Through extensive experiments, we demonstrate that ObjectMover achieves outstanding results and adapts well to real-world scenarios.
PDF45March 12, 2025