Concept Lancet: Bildbearbeitung mit kompositioneller Darstellung Transplantation
Concept Lancet: Image Editing with Compositional Representation Transplant
April 3, 2025
Autoren: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI
Zusammenfassung
Diffusionsmodelle werden häufig für Bildbearbeitungsaufgaben eingesetzt. Bestehende Bearbeitungsmethoden entwerfen oft ein Verfahren zur Manipulation von Repräsentationen, indem sie eine Bearbeitungsrichtung im Text-Embedding- oder Score-Raum kuratieren. Ein zentrales Problem bei diesem Vorgehen ist jedoch: Eine Überschätzung der Bearbeitungsstärke beeinträchtigt die visuelle Konsistenz, während eine Unterschätzung die Bearbeitungsaufgabe verfehlt. Dabei kann jedes Ausgangsbild eine unterschiedliche Bearbeitungsstärke erfordern, und es ist aufwändig, eine geeignete Stärke durch Versuch und Irrtum zu ermitteln. Um diese Herausforderung zu bewältigen, schlagen wir Concept Lancet (CoLan) vor, ein Zero-Shot Plug-and-Play-Framework für prinzipiengeleitete Repräsentationsmanipulation bei der diffusionsbasierten Bildbearbeitung. Zum Inferenzzeitpunkt zerlegen wir die Eingabe im latenten Raum (Text-Embedding oder Diffusionsscore) als eine spärliche lineare Kombination der Repräsentationen gesammelter visueller Konzepte. Dies ermöglicht es uns, das Vorhandensein von Konzepten in jedem Bild präzise zu schätzen, was die Bearbeitung informiert. Basierend auf der Bearbeitungsaufgabe (Ersetzen/Hinzufügen/Entfernen) führen wir einen angepassten Konzepttransplantationsprozess durch, um die entsprechende Bearbeitungsrichtung zu implementieren. Um den Konzeptraum ausreichend zu modellieren, kuratieren wir einen konzeptuellen Repräsentationsdatensatz, CoLan-150K, der vielfältige Beschreibungen und Szenarien visueller Begriffe und Phrasen für das latente Wörterbuch enthält. Experimente mit mehreren diffusionsbasierten Bildbearbeitungs-Baselines zeigen, dass Methoden, die mit CoLan ausgestattet sind, state-of-the-art Leistungen in Bezug auf Bearbeitungseffektivität und Konsistenzbewahrung erzielen.
English
Diffusion models are widely used for image editing tasks. Existing editing
methods often design a representation manipulation procedure by curating an
edit direction in the text embedding or score space. However, such a procedure
faces a key challenge: overestimating the edit strength harms visual
consistency while underestimating it fails the editing task. Notably, each
source image may require a different editing strength, and it is costly to
search for an appropriate strength via trial-and-error. To address this
challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play
framework for principled representation manipulation in diffusion-based image
editing. At inference time, we decompose the source input in the latent (text
embedding or diffusion score) space as a sparse linear combination of the
representations of the collected visual concepts. This allows us to accurately
estimate the presence of concepts in each image, which informs the edit. Based
on the editing task (replace/add/remove), we perform a customized concept
transplant process to impose the corresponding editing direction. To
sufficiently model the concept space, we curate a conceptual representation
dataset, CoLan-150K, which contains diverse descriptions and scenarios of
visual terms and phrases for the latent dictionary. Experiments on multiple
diffusion-based image editing baselines show that methods equipped with CoLan
achieve state-of-the-art performance in editing effectiveness and consistency
preservation.Summary
AI-Generated Summary