Concept Lancet: Beeldbewerking met Compositionele Representatie Transplantatie

Samenvatting

Diffusiemodellen worden veel gebruikt voor beeldbewerkingstaken. Bestaande bewerkingsmethoden ontwerpen vaak een procedure voor representatiemanipulatie door een bewerkingsrichting in de tekstembedding of scorespace te bepalen. Zo'n procedure staat echter voor een belangrijke uitdaging: het overschatten van de bewerkingssterkte schaadt de visuele consistentie, terwijl het onderschatten ervan de bewerkingstaak niet voltooit. Opmerkelijk is dat elke bronafbeelding mogelijk een andere bewerkingssterkte vereist, en het is kostbaar om via trial-and-error een geschikte sterkte te zoeken. Om deze uitdaging aan te pakken, stellen we Concept Lancet (CoLan) voor, een zero-shot plug-and-play raamwerk voor principiële representatiemanipulatie in diffusiegebaseerde beeldbewerking. Tijdens inferentie ontbinden we de broninvoer in de latente (tekstembedding of diffusiescore) ruimte als een lineaire combinatie van de representaties van de verzamelde visuele concepten. Hierdoor kunnen we nauwkeurig de aanwezigheid van concepten in elke afbeelding schatten, wat de bewerking informeert. Op basis van de bewerkingstaak (vervangen/toevoegen/verwijderen) voeren we een aangepast concepttransplantatieproces uit om de corresponderende bewerkingsrichting op te leggen. Om de conceptruimte voldoende te modelleren, hebben we een conceptuele representatiedataset samengesteld, CoLan-150K, die diverse beschrijvingen en scenario's van visuele termen en zinnen bevat voor het latente woordenboek. Experimenten op meerdere diffusiegebaseerde beeldbewerkingsbaselines tonen aan dat methoden uitgerust met CoLan state-of-the-art prestaties behalen in bewerkingseffectiviteit en consistentiebehoud.

English

Diffusion models are widely used for image editing tasks. Existing editing methods often design a representation manipulation procedure by curating an edit direction in the text embedding or score space. However, such a procedure faces a key challenge: overestimating the edit strength harms visual consistency while underestimating it fails the editing task. Notably, each source image may require a different editing strength, and it is costly to search for an appropriate strength via trial-and-error. To address this challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play framework for principled representation manipulation in diffusion-based image editing. At inference time, we decompose the source input in the latent (text embedding or diffusion score) space as a sparse linear combination of the representations of the collected visual concepts. This allows us to accurately estimate the presence of concepts in each image, which informs the edit. Based on the editing task (replace/add/remove), we perform a customized concept transplant process to impose the corresponding editing direction. To sufficiently model the concept space, we curate a conceptual representation dataset, CoLan-150K, which contains diverse descriptions and scenarios of visual terms and phrases for the latent dictionary. Experiments on multiple diffusion-based image editing baselines show that methods equipped with CoLan achieve state-of-the-art performance in editing effectiveness and consistency preservation.

Concept Lancet: Beeldbewerking met Compositionele Representatie Transplantatie

Concept Lancet: Image Editing with Compositional Representation Transplant

Samenvatting

Support