ChatPaper.aiChatPaper

마인드-더-글리치: 주체 기반 생성에서의 불일치 탐지를 위한 시각적 대응

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

September 26, 2025
저자: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI

초록

우리는 사전 학습된 확산 모델의 백본에서 시각적 및 의미론적 특징을 분리하는 새로운 접근 방식을 제안하며, 이는 잘 정립된 의미론적 대응과 유사한 방식으로 시각적 대응을 가능하게 합니다. 확산 모델의 백본이 의미론적으로 풍부한 특징을 인코딩하는 것으로 알려져 있지만, 이미지 합성 능력을 지원하기 위해 시각적 특징도 포함해야 합니다. 그러나 주석이 달린 데이터셋의 부재로 인해 이러한 시각적 특징을 분리하는 것은 어려운 과제입니다. 이를 해결하기 위해, 우리는 기존의 주체 중심 이미지 생성 데이터셋을 기반으로 주석이 달린 의미론적 및 시각적 대응을 가진 이미지 쌍을 구성하는 자동화된 파이프라인을 도입하고, 두 특징 유형을 분리하기 위한 대조적 아키텍처를 설계합니다. 분리된 표현을 활용하여, 우리는 주체 중심 이미지 생성에서 시각적 불일치를 정량화하는 새로운 메트릭인 시각적 의미론적 매칭(Visual Semantic Matching, VSM)을 제안합니다. 실험 결과는 우리의 접근 방식이 CLIP, DINO 및 비전-언어 모델과 같은 전역 특징 기반 메트릭을 능가하며, 시각적 불일치를 정량화하는 동시에 불일치 영역의 공간적 위치 파악도 가능함을 보여줍니다. 우리가 아는 한, 이는 주체 중심 생성에서 불일치의 정량화와 위치 파악을 모두 지원하는 첫 번째 방법으로, 이 작업을 발전시키는 데 유용한 도구를 제공합니다. 프로젝트 페이지: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features from the backbones of pre-trained diffusion models, enabling visual correspondence in a manner analogous to the well-established semantic correspondence. While diffusion model backbones are known to encode semantically rich features, they must also contain visual features to support their image synthesis capabilities. However, isolating these visual features is challenging due to the absence of annotated datasets. To address this, we introduce an automated pipeline that constructs image pairs with annotated semantic and visual correspondences based on existing subject-driven image generation datasets, and design a contrastive architecture to separate the two feature types. Leveraging the disentangled representations, we propose a new metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies in subject-driven image generation. Empirical results show that our approach outperforms global feature-based metrics such as CLIP, DINO, and vision--language models in quantifying visual inconsistencies while also enabling spatial localization of inconsistent regions. To our knowledge, this is the first method that supports both quantification and localization of inconsistencies in subject-driven generation, offering a valuable tool for advancing this task. Project Page:https://abdo-eldesokey.github.io/mind-the-glitch/
PDF182September 29, 2025