Concept Lancet: 컴포지셔널 표현을 활용한 이미지 편집 이식
Concept Lancet: Image Editing with Compositional Representation Transplant
April 3, 2025
저자: Jinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal
cs.AI
초록
디퓨전 모델은 이미지 편집 작업에 널리 사용됩니다. 기존 편집 방법들은 주로 텍스트 임베딩 또는 스코어 공간에서 편집 방향을 설계하여 표현 조작 절차를 구성합니다. 그러나 이러한 절차는 주요 문제에 직면합니다: 편집 강도를 과대평가하면 시각적 일관성이 해치고, 과소평가하면 편집 작업이 실패합니다. 특히, 각 소스 이미지는 서로 다른 편집 강도를 요구할 수 있으며, 시행착오를 통해 적절한 강도를 찾는 것은 비용이 많이 듭니다. 이 문제를 해결하기 위해, 우리는 디퓨전 기반 이미지 편집에서 원칙적인 표현 조작을 위한 제로샷 플러그앤플레이 프레임워크인 Concept Lancet(CoLan)을 제안합니다. 추론 시, 소스 입력을 잠재(텍스트 임베딩 또는 디퓨전 스코어) 공간에서 수집된 시각적 개념들의 표현들의 희소 선형 결합으로 분해합니다. 이를 통해 각 이미지에서 개념의 존재를 정확히 추정할 수 있으며, 이는 편집을 안내합니다. 편집 작업(교체/추가/제거)에 따라, 맞춤형 개념 이식 과정을 수행하여 해당 편집 방향을 부여합니다. 개념 공간을 충분히 모델링하기 위해, 잠재 사전을 위한 다양한 시각적 용어와 구문의 설명 및 시나리오를 포함한 개념적 표현 데이터셋인 CoLan-150K를 구축했습니다. 여러 디퓨전 기반 이미지 편집 베이스라인에서의 실험 결과, CoLan을 장착한 방법들이 편집 효과성과 일관성 보존 측면에서 최첨단 성능을 달성함을 보여줍니다.
English
Diffusion models are widely used for image editing tasks. Existing editing
methods often design a representation manipulation procedure by curating an
edit direction in the text embedding or score space. However, such a procedure
faces a key challenge: overestimating the edit strength harms visual
consistency while underestimating it fails the editing task. Notably, each
source image may require a different editing strength, and it is costly to
search for an appropriate strength via trial-and-error. To address this
challenge, we propose Concept Lancet (CoLan), a zero-shot plug-and-play
framework for principled representation manipulation in diffusion-based image
editing. At inference time, we decompose the source input in the latent (text
embedding or diffusion score) space as a sparse linear combination of the
representations of the collected visual concepts. This allows us to accurately
estimate the presence of concepts in each image, which informs the edit. Based
on the editing task (replace/add/remove), we perform a customized concept
transplant process to impose the corresponding editing direction. To
sufficiently model the concept space, we curate a conceptual representation
dataset, CoLan-150K, which contains diverse descriptions and scenarios of
visual terms and phrases for the latent dictionary. Experiments on multiple
diffusion-based image editing baselines show that methods equipped with CoLan
achieve state-of-the-art performance in editing effectiveness and consistency
preservation.Summary
AI-Generated Summary