Schilderen door Inpainting: Leren om beeldobjecten toe te voegen door ze eerst te verwijderen

Samenvatting

Beeldbewerking heeft aanzienlijke vooruitgang geboekt met de introductie van tekst-geconditioneerde diffusiemodellen. Ondanks deze vooruitgang blijft het naadloos toevoegen van objecten aan afbeeldingen op basis van tekstuele instructies, zonder gebruikersgegenereerde invoermaskers, een uitdaging. Wij pakken dit aan door gebruik te maken van het inzicht dat het verwijderen van objecten (Inpaint) aanzienlijk eenvoudiger is dan het omgekeerde proces van het toevoegen ervan (Paint), wat wordt toegeschreven aan het gebruik van segmentatiemaskerdatasets samen met inpainting-modellen die binnen deze maskers inpainten. Door gebruik te maken van deze realisatie, implementeren we een geautomatiseerde en uitgebreide pijplijn om een gefilterde grootschalige afbeeldingsdataset te creëren die paren van afbeeldingen en hun corresponderende object-verwijderde versies bevat. Met behulp van deze paren trainen we een diffusiemodel om het inpainting-proces om te keren, waardoor objecten effectief aan afbeeldingen worden toegevoegd. In tegenstelling tot andere bewerkingsdatasets, bevat de onze natuurlijke doelafbeeldingen in plaats van synthetische; bovendien behoudt het door constructie consistentie tussen bron en doel. Daarnaast gebruiken we een groot Vision-Language Model om gedetailleerde beschrijvingen te geven van de verwijderde objecten en een Large Language Model om deze beschrijvingen om te zetten in diverse, natuurlijktaalinstructies. We tonen aan dat het getrainde model bestaande modellen zowel kwalitatief als kwantitatief overtreft, en we geven de grootschalige dataset samen met de getrainde modellen vrij voor de gemeenschap.

English

Image editing has advanced significantly with the introduction of text-conditioned diffusion models. Despite this progress, seamlessly adding objects to images based on textual instructions without requiring user-provided input masks remains a challenge. We address this by leveraging the insight that removing objects (Inpaint) is significantly simpler than its inverse process of adding them (Paint), attributed to the utilization of segmentation mask datasets alongside inpainting models that inpaint within these masks. Capitalizing on this realization, by implementing an automated and extensive pipeline, we curate a filtered large-scale image dataset containing pairs of images and their corresponding object-removed versions. Using these pairs, we train a diffusion model to inverse the inpainting process, effectively adding objects into images. Unlike other editing datasets, ours features natural target images instead of synthetic ones; moreover, it maintains consistency between source and target by construction. Additionally, we utilize a large Vision-Language Model to provide detailed descriptions of the removed objects and a Large Language Model to convert these descriptions into diverse, natural-language instructions. We show that the trained model surpasses existing ones both qualitatively and quantitatively, and release the large-scale dataset alongside the trained models for the community.

Schilderen door Inpainting: Leren om beeldobjecten toe te voegen door ze eerst te verwijderen

Paint by Inpaint: Learning to Add Image Objects by Removing Them First

Samenvatting

Support