Mind-the-Glitch: Correspondência Visual para Detecção de Inconsistências na Geração Orientada por Assunto
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation
September 26, 2025
Autores: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI
Resumo
Propomos uma abordagem inovadora para desvincular características visuais e semânticas dos backbones de modelos de difusão pré-treinados, permitindo correspondência visual de maneira análoga à bem-estabelecida correspondência semântica. Embora seja conhecido que os backbones dos modelos de difusão codificam características semanticamente ricas, eles também devem conter características visuais para suportar suas capacidades de síntese de imagens. No entanto, isolar essas características visuais é desafiador devido à ausência de conjuntos de dados anotados. Para resolver isso, introduzimos um pipeline automatizado que constrói pares de imagens com correspondências semânticas e visuais anotadas com base em conjuntos de dados existentes de geração de imagens orientada por sujeitos, e projetamos uma arquitetura contrastiva para separar os dois tipos de características. Aproveitando as representações desvinculadas, propomos uma nova métrica, Visual Semantic Matching (VSM), que quantifica inconsistências visuais na geração de imagens orientada por sujeitos. Resultados empíricos mostram que nossa abordagem supera métricas baseadas em características globais, como CLIP, DINO e modelos visão-linguagem, na quantificação de inconsistências visuais, além de permitir a localização espacial de regiões inconsistentes. Até onde sabemos, este é o primeiro método que suporta tanto a quantificação quanto a localização de inconsistências na geração orientada por sujeitos, oferecendo uma ferramenta valiosa para avançar essa tarefa. Página do Projeto: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features
from the backbones of pre-trained diffusion models, enabling visual
correspondence in a manner analogous to the well-established semantic
correspondence. While diffusion model backbones are known to encode
semantically rich features, they must also contain visual features to support
their image synthesis capabilities. However, isolating these visual features is
challenging due to the absence of annotated datasets. To address this, we
introduce an automated pipeline that constructs image pairs with annotated
semantic and visual correspondences based on existing subject-driven image
generation datasets, and design a contrastive architecture to separate the two
feature types. Leveraging the disentangled representations, we propose a new
metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies
in subject-driven image generation. Empirical results show that our approach
outperforms global feature-based metrics such as CLIP, DINO, and
vision--language models in quantifying visual inconsistencies while also
enabling spatial localization of inconsistent regions. To our knowledge, this
is the first method that supports both quantification and localization of
inconsistencies in subject-driven generation, offering a valuable tool for
advancing this task. Project
Page:https://abdo-eldesokey.github.io/mind-the-glitch/