Concept Lancet: Edición de imágenes con representación composicional Trasplante
Concept Lancet: Image Editing with Compositional Representation Transplant
April 3, 2025
Autores: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI
Resumen
Los modelos de difusión son ampliamente utilizados para tareas de edición de imágenes. Los métodos de edición existentes suelen diseñar un procedimiento de manipulación de representaciones mediante la creación de una dirección de edición en el espacio de incrustación de texto o de puntuación. Sin embargo, este procedimiento enfrenta un desafío clave: sobreestimar la fuerza de la edición perjudica la consistencia visual, mientras que subestimarla no logra cumplir la tarea de edición. Cabe destacar que cada imagen fuente puede requerir una fuerza de edición diferente, y es costoso buscar una fuerza adecuada mediante prueba y error. Para abordar este desafío, proponemos Concept Lancet (CoLan), un marco plug-and-play de cero disparos para la manipulación de representaciones fundamentada en la edición de imágenes basada en difusión. En el momento de la inferencia, descomponemos la entrada fuente en el espacio latente (incrustación de texto o puntuación de difusión) como una combinación lineal dispersa de las representaciones de los conceptos visuales recopilados. Esto nos permite estimar con precisión la presencia de conceptos en cada imagen, lo que informa la edición. Según la tarea de edición (reemplazar/agregar/eliminar), realizamos un proceso personalizado de trasplante de conceptos para imponer la dirección de edición correspondiente. Para modelar suficientemente el espacio de conceptos, recopilamos un conjunto de datos de representación conceptual, CoLan-150K, que contiene descripciones y escenarios diversos de términos y frases visuales para el diccionario latente. Los experimentos en múltiples líneas base de edición de imágenes basadas en difusión muestran que los métodos equipados con CoLan logran un rendimiento de vanguardia en efectividad de edición y preservación de consistencia.
English
Diffusion models are widely used for image editing tasks. Existing editing
methods often design a representation manipulation procedure by curating an
edit direction in the text embedding or score space. However, such a procedure
faces a key challenge: overestimating the edit strength harms visual
consistency while underestimating it fails the editing task. Notably, each
source image may require a different editing strength, and it is costly to
search for an appropriate strength via trial-and-error. To address this
challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play
framework for principled representation manipulation in diffusion-based image
editing. At inference time, we decompose the source input in the latent (text
embedding or diffusion score) space as a sparse linear combination of the
representations of the collected visual concepts. This allows us to accurately
estimate the presence of concepts in each image, which informs the edit. Based
on the editing task (replace/add/remove), we perform a customized concept
transplant process to impose the corresponding editing direction. To
sufficiently model the concept space, we curate a conceptual representation
dataset, CoLan-150K, which contains diverse descriptions and scenarios of
visual terms and phrases for the latent dictionary. Experiments on multiple
diffusion-based image editing baselines show that methods equipped with CoLan
achieve state-of-the-art performance in editing effectiveness and consistency
preservation.Summary
AI-Generated Summary