Schilderen door Inpainting: Leren om beeldobjecten toe te voegen door ze eerst te verwijderen
Paint by Inpaint: Learning to Add Image Objects by Removing Them First
April 28, 2024
Auteurs: Navve Wasserman, Noam Rotstein, Roy Ganz, Ron Kimmel
cs.AI
Samenvatting
Beeldbewerking heeft aanzienlijke vooruitgang geboekt met de introductie van tekst-geconditioneerde diffusiemodellen. Ondanks deze vooruitgang blijft het naadloos toevoegen van objecten aan afbeeldingen op basis van tekstuele instructies, zonder gebruikersgegenereerde invoermaskers, een uitdaging. Wij pakken dit aan door gebruik te maken van het inzicht dat het verwijderen van objecten (Inpaint) aanzienlijk eenvoudiger is dan het omgekeerde proces van het toevoegen ervan (Paint), wat wordt toegeschreven aan het gebruik van segmentatiemaskerdatasets samen met inpainting-modellen die binnen deze maskers inpainten. Door gebruik te maken van deze realisatie, implementeren we een geautomatiseerde en uitgebreide pijplijn om een gefilterde grootschalige afbeeldingsdataset te creëren die paren van afbeeldingen en hun corresponderende object-verwijderde versies bevat. Met behulp van deze paren trainen we een diffusiemodel om het inpainting-proces om te keren, waardoor objecten effectief aan afbeeldingen worden toegevoegd. In tegenstelling tot andere bewerkingsdatasets, bevat de onze natuurlijke doelafbeeldingen in plaats van synthetische; bovendien behoudt het door constructie consistentie tussen bron en doel. Daarnaast gebruiken we een groot Vision-Language Model om gedetailleerde beschrijvingen te geven van de verwijderde objecten en een Large Language Model om deze beschrijvingen om te zetten in diverse, natuurlijktaalinstructies. We tonen aan dat het getrainde model bestaande modellen zowel kwalitatief als kwantitatief overtreft, en we geven de grootschalige dataset samen met de getrainde modellen vrij voor de gemeenschap.
English
Image editing has advanced significantly with the introduction of
text-conditioned diffusion models. Despite this progress, seamlessly adding
objects to images based on textual instructions without requiring user-provided
input masks remains a challenge. We address this by leveraging the insight that
removing objects (Inpaint) is significantly simpler than its inverse process of
adding them (Paint), attributed to the utilization of segmentation mask
datasets alongside inpainting models that inpaint within these masks.
Capitalizing on this realization, by implementing an automated and extensive
pipeline, we curate a filtered large-scale image dataset containing pairs of
images and their corresponding object-removed versions. Using these pairs, we
train a diffusion model to inverse the inpainting process, effectively adding
objects into images. Unlike other editing datasets, ours features natural
target images instead of synthetic ones; moreover, it maintains consistency
between source and target by construction. Additionally, we utilize a large
Vision-Language Model to provide detailed descriptions of the removed objects
and a Large Language Model to convert these descriptions into diverse,
natural-language instructions. We show that the trained model surpasses
existing ones both qualitatively and quantitatively, and release the
large-scale dataset alongside the trained models for the community.