ObjectMate : Une priorité de récurrence pour l'insertion d'objets et la génération pilotée par le sujet
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
Auteurs: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Résumé
Cet article présente une méthode sans réglage pour l'insertion d'objets et la génération pilotée par le sujet. La tâche consiste à composer un objet, en fonction de plusieurs vues, dans une scène spécifiée par une image ou un texte. Les méthodes existantes peinent à répondre pleinement aux objectifs exigeants de la tâche : (i) composer de manière transparente l'objet dans la scène avec une pose et un éclairage photoréalistes, et (ii) préserver l'identité de l'objet. Nous émettons l'hypothèse que pour atteindre ces objectifs, une supervision à grande échelle est nécessaire, mais la collecte manuelle de suffisamment de données est tout simplement trop coûteuse. L'observation clé de cet article est que de nombreux objets produits en masse se répètent à travers plusieurs images de vastes ensembles de données non étiquetées, dans des scènes, poses et conditions d'éclairage différentes. Nous utilisons cette observation pour créer une supervision massive en récupérant des ensembles de vues diverses du même objet. Ce jeu de données apparié puissant nous permet d'entraîner une architecture de diffusion texte-vers-image directe pour mapper les descriptions d'objet et de scène vers l'image composée. Nous comparons notre méthode, ObjectMate, avec les méthodes de pointe pour l'insertion d'objets et la génération pilotée par le sujet, en utilisant une ou plusieurs références. Empiriquement, ObjectMate parvient à une préservation d'identité supérieure et une composition plus photoréaliste. Contrairement à de nombreuses autres méthodes multi-références, ObjectMate ne nécessite pas de réglage lent à l'exécution.
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.Summary
AI-Generated Summary