ChatPaper.aiChatPaper

Concept Lancet: Edición de imágenes con representación composicional Trasplante

Concept Lancet: Image Editing with Compositional Representation Transplant

April 3, 2025
Autores: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI

Resumen

Los modelos de difusión son ampliamente utilizados para tareas de edición de imágenes. Los métodos de edición existentes suelen diseñar un procedimiento de manipulación de representaciones mediante la creación de una dirección de edición en el espacio de incrustación de texto o de puntuación. Sin embargo, este procedimiento enfrenta un desafío clave: sobreestimar la fuerza de la edición perjudica la consistencia visual, mientras que subestimarla no logra cumplir la tarea de edición. Cabe destacar que cada imagen fuente puede requerir una fuerza de edición diferente, y es costoso buscar una fuerza adecuada mediante prueba y error. Para abordar este desafío, proponemos Concept Lancet (CoLan), un marco plug-and-play de cero disparos para la manipulación de representaciones fundamentada en la edición de imágenes basada en difusión. En el momento de la inferencia, descomponemos la entrada fuente en el espacio latente (incrustación de texto o puntuación de difusión) como una combinación lineal dispersa de las representaciones de los conceptos visuales recopilados. Esto nos permite estimar con precisión la presencia de conceptos en cada imagen, lo que informa la edición. Según la tarea de edición (reemplazar/agregar/eliminar), realizamos un proceso personalizado de trasplante de conceptos para imponer la dirección de edición correspondiente. Para modelar suficientemente el espacio de conceptos, recopilamos un conjunto de datos de representación conceptual, CoLan-150K, que contiene descripciones y escenarios diversos de términos y frases visuales para el diccionario latente. Los experimentos en múltiples líneas base de edición de imágenes basadas en difusión muestran que los métodos equipados con CoLan logran un rendimiento de vanguardia en efectividad de edición y preservación de consistencia.
English
Diffusion models are widely used for image editing tasks. Existing editing methods often design a representation manipulation procedure by curating an edit direction in the text embedding or score space. However, such a procedure faces a key challenge: overestimating the edit strength harms visual consistency while underestimating it fails the editing task. Notably, each source image may require a different editing strength, and it is costly to search for an appropriate strength via trial-and-error. To address this challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play framework for principled representation manipulation in diffusion-based image editing. At inference time, we decompose the source input in the latent (text embedding or diffusion score) space as a sparse linear combination of the representations of the collected visual concepts. This allows us to accurately estimate the presence of concepts in each image, which informs the edit. Based on the editing task (replace/add/remove), we perform a customized concept transplant process to impose the corresponding editing direction. To sufficiently model the concept space, we curate a conceptual representation dataset, CoLan-150K, which contains diverse descriptions and scenarios of visual terms and phrases for the latent dictionary. Experiments on multiple diffusion-based image editing baselines show that methods equipped with CoLan achieve state-of-the-art performance in editing effectiveness and consistency preservation.

Summary

AI-Generated Summary

PDF173April 8, 2025