ObjectMate: Ein Rückkehrprior für die Einfügung von Objekten und die subjektgesteuerte Generierung.
ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation
December 11, 2024
Autoren: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI
Zusammenfassung
Dieses Paper stellt eine abstimmmungsfreie Methode sowohl für die Objekteinfügung als auch für die subjektgesteuerte Generierung vor. Die Aufgabe besteht darin, ein Objekt basierend auf mehreren Ansichten in eine Szene einzufügen, die entweder durch ein Bild oder Text spezifiziert ist. Bestehende Methoden haben Schwierigkeiten, die anspruchsvollen Ziele der Aufgabe vollständig zu erreichen: (i) das nahtlose Einfügen des Objekts in die Szene mit fotorealistischer Pose und Beleuchtung und (ii) die Bewahrung der Identität des Objekts. Wir nehmen an, dass zur Erreichung dieser Ziele eine umfangreiche Überwachung erforderlich ist, aber das manuelle Sammeln ausreichender Daten schlichtweg zu teuer ist. Die Schlüsselbeobachtung in diesem Paper ist, dass viele maschinell hergestellte Objekte in mehreren Bildern großer unbeschrifteter Datensätze in verschiedenen Szenen, Posen und Beleuchtungsbedingungen wiederkehren. Wir nutzen diese Beobachtung, um eine umfangreiche Überwachung zu schaffen, indem wir Sets verschiedener Ansichten desselben Objekts abrufen. Dieser leistungsstarke gepaarte Datensatz ermöglicht es uns, eine einfache Text-zu-Bild-Diffusionsarchitektur zu trainieren, um die Objekt- und Szenenbeschreibungen auf das zusammengesetzte Bild abzubilden. Wir vergleichen unsere Methode, ObjectMate, mit State-of-the-Art-Methoden für die Objekteinfügung und die subjektgesteuerte Generierung unter Verwendung einer einzelnen oder mehreren Referenzen. Empirisch gesehen erreicht ObjectMate eine überlegene Identitätserhaltung und eine realistischere Komposition. Im Gegensatz zu vielen anderen Multi-Referenz-Methoden erfordert ObjectMate keine langsame Abstimmung zur Testzeit.
English
This paper introduces a tuning-free method for both object insertion and
subject-driven generation. The task involves composing an object, given
multiple views, into a scene specified by either an image or text. Existing
methods struggle to fully meet the task's challenging objectives: (i)
seamlessly composing the object into the scene with photorealistic pose and
lighting, and (ii) preserving the object's identity. We hypothesize that
achieving these goals requires large scale supervision, but manually collecting
sufficient data is simply too expensive. The key observation in this paper is
that many mass-produced objects recur across multiple images of large unlabeled
datasets, in different scenes, poses, and lighting conditions. We use this
observation to create massive supervision by retrieving sets of diverse views
of the same object. This powerful paired dataset enables us to train a
straightforward text-to-image diffusion architecture to map the object and
scene descriptions to the composited image. We compare our method, ObjectMate,
with state-of-the-art methods for object insertion and subject-driven
generation, using a single or multiple references. Empirically, ObjectMate
achieves superior identity preservation and more photorealistic composition.
Differently from many other multi-reference methods, ObjectMate does not
require slow test-time tuning.Summary
AI-Generated Summary