Add-it: Training-vrije objectinvoeging in afbeeldingen met vooraf getrainde Diffusion-modellenAdd-it: Training-Free Object Insertion in Images With Pretrained
Diffusion Models
Het toevoegen van objecten aan afbeeldingen op basis van tekstinstructies is een uitdagende taak in semantische beeldbewerking, waarbij een balans nodig is tussen het behouden van de oorspronkelijke scène en het naadloos integreren van het nieuwe object op een passende locatie. Ondanks uitgebreide inspanningen hebben bestaande modellen vaak moeite met deze balans, vooral met het vinden van een natuurlijke locatie voor het toevoegen van een object in complexe scènes. We introduceren Add-it, een aanpak zonder training die de aandachtsmechanismen van diffusiemodellen uitbreidt om informatie van drie belangrijke bronnen op te nemen: de scèneafbeelding, de tekstprompt en de gegenereerde afbeelding zelf. Ons gewogen uitgebreide-aandachtsmechanisme handhaaft structurele consistentie en fijne details terwijl het zorgt voor een natuurlijke plaatsing van objecten. Zonder specifieke fijnafstemming voor taken behaalt Add-it state-of-the-art resultaten op zowel echte als gegenereerde afbeeldingsinvoegingsbenchmarks, inclusief onze nieuw ontwikkelde "Toevoegingsaffiniteitsbenchmark" voor het evalueren van de geloofwaardigheid van objectplaatsing, waarbij het toezicht houdende methoden overtreft. Menselijke evaluaties tonen aan dat Add-it in meer dan 80% van de gevallen de voorkeur geniet, en het laat ook verbeteringen zien in verschillende geautomatiseerde metingen.