Mind-the-Glitch : Correspondance visuelle pour la détection des incohérences dans la génération pilotée par sujet
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation
September 26, 2025
papers.authors: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI
papers.abstract
Nous proposons une nouvelle approche pour dissocier les caractéristiques visuelles et sémantiques à partir des architectures de modèles de diffusion pré-entraînés, permettant une correspondance visuelle de manière analogue à la correspondance sémantique bien établie. Bien que les architectures des modèles de diffusion soient connues pour encoder des caractéristiques sémantiquement riches, elles doivent également contenir des caractéristiques visuelles pour soutenir leurs capacités de synthèse d’images. Cependant, isoler ces caractéristiques visuelles est un défi en raison de l’absence de jeux de données annotés. Pour résoudre ce problème, nous introduisons un pipeline automatisé qui construit des paires d’images avec des correspondances sémantiques et visuelles annotées à partir de jeux de données existants pour la génération d’images pilotée par sujet, et nous concevons une architecture contrastive pour séparer les deux types de caractéristiques. En exploitant les représentations dissociées, nous proposons une nouvelle métrique, le Visual Semantic Matching (VSM), qui quantifie les incohérences visuelles dans la génération d’images pilotée par sujet. Les résultats empiriques montrent que notre approche surpasse les métriques basées sur des caractéristiques globales telles que CLIP, DINO et les modèles vision--langage dans la quantification des incohérences visuelles, tout en permettant également la localisation spatiale des régions incohérentes. À notre connaissance, il s’agit de la première méthode qui prend en charge à la fois la quantification et la localisation des incohérences dans la génération pilotée par sujet, offrant ainsi un outil précieux pour faire progresser cette tâche. Page du projet : https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features
from the backbones of pre-trained diffusion models, enabling visual
correspondence in a manner analogous to the well-established semantic
correspondence. While diffusion model backbones are known to encode
semantically rich features, they must also contain visual features to support
their image synthesis capabilities. However, isolating these visual features is
challenging due to the absence of annotated datasets. To address this, we
introduce an automated pipeline that constructs image pairs with annotated
semantic and visual correspondences based on existing subject-driven image
generation datasets, and design a contrastive architecture to separate the two
feature types. Leveraging the disentangled representations, we propose a new
metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies
in subject-driven image generation. Empirical results show that our approach
outperforms global feature-based metrics such as CLIP, DINO, and
vision--language models in quantifying visual inconsistencies while also
enabling spatial localization of inconsistent regions. To our knowledge, this
is the first method that supports both quantification and localization of
inconsistencies in subject-driven generation, offering a valuable tool for
advancing this task. Project
Page:https://abdo-eldesokey.github.io/mind-the-glitch/