ChatPaper.aiChatPaper

Mind-the-Glitch: Correspondência Visual para Detecção de Inconsistências na Geração Orientada por Assunto

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

September 26, 2025
Autores: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI

Resumo

Propomos uma abordagem inovadora para desvincular características visuais e semânticas dos backbones de modelos de difusão pré-treinados, permitindo correspondência visual de maneira análoga à bem-estabelecida correspondência semântica. Embora seja conhecido que os backbones dos modelos de difusão codificam características semanticamente ricas, eles também devem conter características visuais para suportar suas capacidades de síntese de imagens. No entanto, isolar essas características visuais é desafiador devido à ausência de conjuntos de dados anotados. Para resolver isso, introduzimos um pipeline automatizado que constrói pares de imagens com correspondências semânticas e visuais anotadas com base em conjuntos de dados existentes de geração de imagens orientada por sujeitos, e projetamos uma arquitetura contrastiva para separar os dois tipos de características. Aproveitando as representações desvinculadas, propomos uma nova métrica, Visual Semantic Matching (VSM), que quantifica inconsistências visuais na geração de imagens orientada por sujeitos. Resultados empíricos mostram que nossa abordagem supera métricas baseadas em características globais, como CLIP, DINO e modelos visão-linguagem, na quantificação de inconsistências visuais, além de permitir a localização espacial de regiões inconsistentes. Até onde sabemos, este é o primeiro método que suporta tanto a quantificação quanto a localização de inconsistências na geração orientada por sujeitos, oferecendo uma ferramenta valiosa para avançar essa tarefa. Página do Projeto: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features from the backbones of pre-trained diffusion models, enabling visual correspondence in a manner analogous to the well-established semantic correspondence. While diffusion model backbones are known to encode semantically rich features, they must also contain visual features to support their image synthesis capabilities. However, isolating these visual features is challenging due to the absence of annotated datasets. To address this, we introduce an automated pipeline that constructs image pairs with annotated semantic and visual correspondences based on existing subject-driven image generation datasets, and design a contrastive architecture to separate the two feature types. Leveraging the disentangled representations, we propose a new metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies in subject-driven image generation. Empirical results show that our approach outperforms global feature-based metrics such as CLIP, DINO, and vision--language models in quantifying visual inconsistencies while also enabling spatial localization of inconsistent regions. To our knowledge, this is the first method that supports both quantification and localization of inconsistencies in subject-driven generation, offering a valuable tool for advancing this task. Project Page:https://abdo-eldesokey.github.io/mind-the-glitch/
PDF222September 29, 2025