Concept Lancet: Beeldbewerking met Compositionele Representatie Transplantatie
Concept Lancet: Image Editing with Compositional Representation Transplant
April 3, 2025
Auteurs: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI
Samenvatting
Diffusiemodellen worden veel gebruikt voor beeldbewerkingstaken. Bestaande bewerkingsmethoden ontwerpen vaak een procedure voor representatiemanipulatie door een bewerkingsrichting in de tekstembedding of scorespace te bepalen. Zo'n procedure staat echter voor een belangrijke uitdaging: het overschatten van de bewerkingssterkte schaadt de visuele consistentie, terwijl het onderschatten ervan de bewerkingstaak niet voltooit. Opmerkelijk is dat elke bronafbeelding mogelijk een andere bewerkingssterkte vereist, en het is kostbaar om via trial-and-error een geschikte sterkte te zoeken. Om deze uitdaging aan te pakken, stellen we Concept Lancet (CoLan) voor, een zero-shot plug-and-play raamwerk voor principiële representatiemanipulatie in diffusiegebaseerde beeldbewerking. Tijdens inferentie ontbinden we de broninvoer in de latente (tekstembedding of diffusiescore) ruimte als een lineaire combinatie van de representaties van de verzamelde visuele concepten. Hierdoor kunnen we nauwkeurig de aanwezigheid van concepten in elke afbeelding schatten, wat de bewerking informeert. Op basis van de bewerkingstaak (vervangen/toevoegen/verwijderen) voeren we een aangepast concepttransplantatieproces uit om de corresponderende bewerkingsrichting op te leggen. Om de conceptruimte voldoende te modelleren, hebben we een conceptuele representatiedataset samengesteld, CoLan-150K, die diverse beschrijvingen en scenario's van visuele termen en zinnen bevat voor het latente woordenboek. Experimenten op meerdere diffusiegebaseerde beeldbewerkingsbaselines tonen aan dat methoden uitgerust met CoLan state-of-the-art prestaties behalen in bewerkingseffectiviteit en consistentiebehoud.
English
Diffusion models are widely used for image editing tasks. Existing editing
methods often design a representation manipulation procedure by curating an
edit direction in the text embedding or score space. However, such a procedure
faces a key challenge: overestimating the edit strength harms visual
consistency while underestimating it fails the editing task. Notably, each
source image may require a different editing strength, and it is costly to
search for an appropriate strength via trial-and-error. To address this
challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play
framework for principled representation manipulation in diffusion-based image
editing. At inference time, we decompose the source input in the latent (text
embedding or diffusion score) space as a sparse linear combination of the
representations of the collected visual concepts. This allows us to accurately
estimate the presence of concepts in each image, which informs the edit. Based
on the editing task (replace/add/remove), we perform a customized concept
transplant process to impose the corresponding editing direction. To
sufficiently model the concept space, we curate a conceptual representation
dataset, CoLan-150K, which contains diverse descriptions and scenarios of
visual terms and phrases for the latent dictionary. Experiments on multiple
diffusion-based image editing baselines show that methods equipped with CoLan
achieve state-of-the-art performance in editing effectiveness and consistency
preservation.Summary
AI-Generated Summary