ChatPaper.aiChatPaper

Concept Lancet : Édition d'images avec représentation compositionnelle Transplantation

Concept Lancet: Image Editing with Compositional Representation Transplant

April 3, 2025
Auteurs: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI

Résumé

Les modèles de diffusion sont largement utilisés pour les tâches d'édition d'images. Les méthodes d'édition existantes conçoivent souvent une procédure de manipulation des représentations en définissant une direction d'édition dans l'espace des embeddings textuels ou des scores. Cependant, une telle procédure fait face à un défi majeur : surestimer la force d'édition nuit à la cohérence visuelle, tandis que la sous-estimer compromet la tâche d'édition. Notamment, chaque image source peut nécessiter une force d'édition différente, et il est coûteux de rechercher une force appropriée par essais et erreurs. Pour relever ce défi, nous proposons Concept Lancet (CoLan), un framework plug-and-play zero-shot pour une manipulation de représentation rigoureuse dans l'édition d'images basée sur la diffusion. Au moment de l'inférence, nous décomposons l'entrée source dans l'espace latent (embedding textuel ou score de diffusion) comme une combinaison linéaire parcimonieuse des représentations des concepts visuels collectés. Cela nous permet d'estimer avec précision la présence de concepts dans chaque image, ce qui guide l'édition. En fonction de la tâche d'édition (remplacer/ajouter/supprimer), nous effectuons un processus de transplantation de concept personnalisé pour imposer la direction d'édition correspondante. Pour modéliser suffisamment l'espace des concepts, nous avons constitué un ensemble de données de représentations conceptuelles, CoLan-150K, qui contient des descriptions et des scénarios variés de termes et expressions visuels pour le dictionnaire latent. Les expériences sur plusieurs bases d'édition d'images basées sur la diffusion montrent que les méthodes équipées de CoLan atteignent des performances de pointe en termes d'efficacité d'édition et de préservation de la cohérence.
English
Diffusion models are widely used for image editing tasks. Existing editing methods often design a representation manipulation procedure by curating an edit direction in the text embedding or score space. However, such a procedure faces a key challenge: overestimating the edit strength harms visual consistency while underestimating it fails the editing task. Notably, each source image may require a different editing strength, and it is costly to search for an appropriate strength via trial-and-error. To address this challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play framework for principled representation manipulation in diffusion-based image editing. At inference time, we decompose the source input in the latent (text embedding or diffusion score) space as a sparse linear combination of the representations of the collected visual concepts. This allows us to accurately estimate the presence of concepts in each image, which informs the edit. Based on the editing task (replace/add/remove), we perform a customized concept transplant process to impose the corresponding editing direction. To sufficiently model the concept space, we curate a conceptual representation dataset, CoLan-150K, which contains diverse descriptions and scenarios of visual terms and phrases for the latent dictionary. Experiments on multiple diffusion-based image editing baselines show that methods equipped with CoLan achieve state-of-the-art performance in editing effectiveness and consistency preservation.

Summary

AI-Generated Summary

PDF173April 8, 2025