ChatPaper.aiChatPaper

ObjectMate: Een terugkerende prior voor objectinvoeging en door onderwerp gedreven generatie.

ObjectMate: A Recurrence Prior for Object Insertion and Subject-Driven Generation

December 11, 2024
Auteurs: Daniel Winter, Asaf Shul, Matan Cohen, Dana Berman, Yael Pritch, Alex Rav-Acha, Yedid Hoshen
cs.AI

Samenvatting

Dit artikel introduceert een afstemmingsvrije methode voor zowel objectinvoeging als door onderwerp gedreven generatie. De taak omvat het samenstellen van een object, gegeven meerdere weergaven, in een scène gespecificeerd door ofwel een afbeelding of tekst. Bestaande methoden worstelen om volledig aan de uitdagende doelstellingen van de taak te voldoen: (i) naadloos het object in de scène samenstellen met fotorealistische houding en belichting, en (ii) de identiteit van het object behouden. We veronderstellen dat het bereiken van deze doelen grote schaal supervisie vereist, maar het handmatig verzamelen van voldoende gegevens is simpelweg te duur. De belangrijkste observatie in dit artikel is dat veel massaal geproduceerde objecten terugkeren in meerdere afbeeldingen van grote ongelabelde datasets, in verschillende scènes, houdingen en belichtingsomstandigheden. We gebruiken deze observatie om massale supervisie te creëren door sets van diverse weergaven van hetzelfde object op te halen. Deze krachtige gekoppelde dataset stelt ons in staat om een eenvoudige tekst-naar-afbeelding diffusie-architectuur te trainen om de object- en scènebeschrijvingen naar de samengestelde afbeelding te mappen. We vergelijken onze methode, ObjectMate, met state-of-the-art methoden voor objectinvoeging en door onderwerp gedreven generatie, met behulp van een enkele of meerdere referenties. Empirisch gezien behaalt ObjectMate superieure identiteitsbehoud en meer fotorealistische samenstelling. In tegenstelling tot veel andere multi-referentie methoden, vereist ObjectMate geen langzame afstemming op testtijd.
English
This paper introduces a tuning-free method for both object insertion and subject-driven generation. The task involves composing an object, given multiple views, into a scene specified by either an image or text. Existing methods struggle to fully meet the task's challenging objectives: (i) seamlessly composing the object into the scene with photorealistic pose and lighting, and (ii) preserving the object's identity. We hypothesize that achieving these goals requires large scale supervision, but manually collecting sufficient data is simply too expensive. The key observation in this paper is that many mass-produced objects recur across multiple images of large unlabeled datasets, in different scenes, poses, and lighting conditions. We use this observation to create massive supervision by retrieving sets of diverse views of the same object. This powerful paired dataset enables us to train a straightforward text-to-image diffusion architecture to map the object and scene descriptions to the composited image. We compare our method, ObjectMate, with state-of-the-art methods for object insertion and subject-driven generation, using a single or multiple references. Empirically, ObjectMate achieves superior identity preservation and more photorealistic composition. Differently from many other multi-reference methods, ObjectMate does not require slow test-time tuning.
PDF112December 16, 2024