Concept Lancet: Edição de Imagens com Representação Composicional Transplante
Concept Lancet: Image Editing with Compositional Representation Transplant
April 3, 2025
Autores: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI
Resumo
Modelos de difusão são amplamente utilizados para tarefas de edição de imagens. Os métodos de edição existentes frequentemente projetam um procedimento de manipulação de representação ao curar uma direção de edição no espaço de incorporação de texto ou de pontuação. No entanto, tal procedimento enfrenta um desafio crucial: superestimar a força da edição prejudica a consistência visual, enquanto subestimá-la falha na tarefa de edição. Notavelmente, cada imagem de origem pode exigir uma força de edição diferente, e é custoso buscar uma força apropriada por meio de tentativa e erro. Para abordar esse desafio, propomos o Concept Lancet (CoLan), uma estrutura plug-and-play de princípios zero-shot para manipulação de representação em edição de imagens baseada em difusão. No momento da inferência, decompomos a entrada de origem no espaço latente (incorporação de texto ou pontuação de difusão) como uma combinação linear esparsa das representações dos conceitos visuais coletados. Isso nos permite estimar com precisão a presença de conceitos em cada imagem, o que informa a edição. Com base na tarefa de edição (substituir/adicionar/remover), realizamos um processo personalizado de transplante de conceito para impor a direção de edição correspondente. Para modelar suficientemente o espaço de conceitos, curamos um conjunto de dados de representação conceitual, o CoLan-150K, que contém descrições e cenários diversos de termos e frases visuais para o dicionário latente. Experimentos em múltiplas linhas de base de edição de imagens baseadas em difusão mostram que os métodos equipados com CoLan alcançam desempenho de ponta em eficácia de edição e preservação de consistência.
English
Diffusion models are widely used for image editing tasks. Existing editing
methods often design a representation manipulation procedure by curating an
edit direction in the text embedding or score space. However, such a procedure
faces a key challenge: overestimating the edit strength harms visual
consistency while underestimating it fails the editing task. Notably, each
source image may require a different editing strength, and it is costly to
search for an appropriate strength via trial-and-error. To address this
challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play
framework for principled representation manipulation in diffusion-based image
editing. At inference time, we decompose the source input in the latent (text
embedding or diffusion score) space as a sparse linear combination of the
representations of the collected visual concepts. This allows us to accurately
estimate the presence of concepts in each image, which informs the edit. Based
on the editing task (replace/add/remove), we perform a customized concept
transplant process to impose the corresponding editing direction. To
sufficiently model the concept space, we curate a conceptual representation
dataset, CoLan-150K, which contains diverse descriptions and scenarios of
visual terms and phrases for the latent dictionary. Experiments on multiple
diffusion-based image editing baselines show that methods equipped with CoLan
achieve state-of-the-art performance in editing effectiveness and consistency
preservation.Summary
AI-Generated Summary