Click2Mask: Lokale Bearbeitung mit dynamischer Maskengenerierung
Click2Mask: Local Editing with Dynamic Mask Generation
September 12, 2024
Autoren: Omer Regev, Omri Avrahami, Dani Lischinski
cs.AI
Zusammenfassung
In den letzten Fortschritten in generativen Modellen haben die Bildgenerierung und -bearbeitung revolutioniert und diese Aufgaben auch für Nicht-Experten zugänglich gemacht. Dieser Artikel konzentriert sich auf die lokale Bildbearbeitung, insbesondere die Aufgabe, neuen Inhalt in einen grob spezifizierten Bereich hinzuzufügen. Bestehende Methoden erfordern oft eine präzise Maske oder eine detaillierte Beschreibung des Ortes, was umständlich und fehleranfällig sein kann. Wir schlagen Click2Mask vor, einen neuartigen Ansatz, der den lokalen Bearbeitungsprozess vereinfacht, indem nur ein einziger Referenzpunkt (zusätzlich zur Inhaltsbeschreibung) erforderlich ist. Eine Maske wird während eines Blended Latent Diffusion (BLD)-Prozesses dynamisch um diesen Punkt herum erweitert, geleitet durch einen maskierten CLIP-basierten semantischen Verlust. Click2Mask überwindet die Einschränkungen von segmentierungsbasierten und feinabstimmungsabhängigen Methoden und bietet eine benutzerfreundlichere und kontextuell genauere Lösung. Unsere Experimente zeigen, dass Click2Mask nicht nur den Benutzeraufwand minimiert, sondern auch wettbewerbsfähige oder überlegene Ergebnisse bei der lokalen Bildmanipulation im Vergleich zu führenden Methoden liefert, sowohl nach menschlichem Ermessen als auch nach automatischen Metriken. Zu den Hauptbeiträgen gehören die Vereinfachung der Benutzereingabe, die Möglichkeit, Objekte frei hinzuzufügen, ohne durch vorhandene Segmente eingeschränkt zu sein, sowie das Integrationspotenzial unseres dynamischen Maskenansatzes in anderen Bearbeitungsmethoden.
English
Recent advancements in generative models have revolutionized image generation
and editing, making these tasks accessible to non-experts. This paper focuses
on local image editing, particularly the task of adding new content to a
loosely specified area. Existing methods often require a precise mask or a
detailed description of the location, which can be cumbersome and prone to
errors. We propose Click2Mask, a novel approach that simplifies the local
editing process by requiring only a single point of reference (in addition to
the content description). A mask is dynamically grown around this point during
a Blended Latent Diffusion (BLD) process, guided by a masked CLIP-based
semantic loss. Click2Mask surpasses the limitations of segmentation-based and
fine-tuning dependent methods, offering a more user-friendly and contextually
accurate solution. Our experiments demonstrate that Click2Mask not only
minimizes user effort but also delivers competitive or superior local image
manipulation results compared to SoTA methods, according to both human
judgement and automatic metrics. Key contributions include the simplification
of user input, the ability to freely add objects unconstrained by existing
segments, and the integration potential of our dynamic mask approach within
other editing methods.Summary
AI-Generated Summary