ChatPaper.aiChatPaper

Concept Lancet: Редактирование изображений с использованием композиционного представления Трансплантация

Concept Lancet: Image Editing with Compositional Representation Transplant

April 3, 2025
Авторы: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI

Аннотация

Диффузионные модели широко используются для задач редактирования изображений. Существующие методы редактирования часто разрабатывают процедуру манипуляции представлениями, определяя направление редактирования в пространстве текстовых эмбеддингов или оценок. Однако такая процедура сталкивается с ключевой проблемой: переоценка силы редактирования нарушает визуальную согласованность, а недооценка приводит к неудаче в выполнении задачи редактирования. Примечательно, что каждое исходное изображение может требовать разной силы редактирования, и поиск подходящей силы методом проб и ошибок является затратным. Чтобы решить эту проблему, мы предлагаем Concept Lancet (CoLan) — zero-shot плагин-энд-плей фреймворк для принципиальной манипуляции представлениями в диффузионном редактировании изображений. На этапе вывода мы декомпозируем исходный вход в латентном пространстве (текстовых эмбеддингов или диффузионных оценок) как разреженную линейную комбинацию представлений собранных визуальных концепций. Это позволяет нам точно оценить присутствие концепций в каждом изображении, что информирует процесс редактирования. В зависимости от задачи редактирования (замена/добавление/удаление) мы выполняем кастомизированный процесс трансплантации концепций, чтобы наложить соответствующее направление редактирования. Для достаточного моделирования пространства концепций мы создали набор данных концептуальных представлений CoLan-150K, который содержит разнообразные описания и сценарии визуальных терминов и фраз для латентного словаря. Эксперименты на нескольких базовых методах диффузионного редактирования изображений показывают, что методы, оснащенные CoLan, достигают наилучших результатов в эффективности редактирования и сохранении согласованности.
English
Diffusion models are widely used for image editing tasks. Existing editing methods often design a representation manipulation procedure by curating an edit direction in the text embedding or score space. However, such a procedure faces a key challenge: overestimating the edit strength harms visual consistency while underestimating it fails the editing task. Notably, each source image may require a different editing strength, and it is costly to search for an appropriate strength via trial-and-error. To address this challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play framework for principled representation manipulation in diffusion-based image editing. At inference time, we decompose the source input in the latent (text embedding or diffusion score) space as a sparse linear combination of the representations of the collected visual concepts. This allows us to accurately estimate the presence of concepts in each image, which informs the edit. Based on the editing task (replace/add/remove), we perform a customized concept transplant process to impose the corresponding editing direction. To sufficiently model the concept space, we curate a conceptual representation dataset, CoLan-150K, which contains diverse descriptions and scenarios of visual terms and phrases for the latent dictionary. Experiments on multiple diffusion-based image editing baselines show that methods equipped with CoLan achieve state-of-the-art performance in editing effectiveness and consistency preservation.

Summary

AI-Generated Summary

PDF173April 8, 2025