ChatPaper.aiChatPaper

Mind-the-Glitch : Correspondance visuelle pour la détection des incohérences dans la génération pilotée par sujet

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

September 26, 2025
papers.authors: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI

papers.abstract

Nous proposons une nouvelle approche pour dissocier les caractéristiques visuelles et sémantiques à partir des architectures de modèles de diffusion pré-entraînés, permettant une correspondance visuelle de manière analogue à la correspondance sémantique bien établie. Bien que les architectures des modèles de diffusion soient connues pour encoder des caractéristiques sémantiquement riches, elles doivent également contenir des caractéristiques visuelles pour soutenir leurs capacités de synthèse d’images. Cependant, isoler ces caractéristiques visuelles est un défi en raison de l’absence de jeux de données annotés. Pour résoudre ce problème, nous introduisons un pipeline automatisé qui construit des paires d’images avec des correspondances sémantiques et visuelles annotées à partir de jeux de données existants pour la génération d’images pilotée par sujet, et nous concevons une architecture contrastive pour séparer les deux types de caractéristiques. En exploitant les représentations dissociées, nous proposons une nouvelle métrique, le Visual Semantic Matching (VSM), qui quantifie les incohérences visuelles dans la génération d’images pilotée par sujet. Les résultats empiriques montrent que notre approche surpasse les métriques basées sur des caractéristiques globales telles que CLIP, DINO et les modèles vision--langage dans la quantification des incohérences visuelles, tout en permettant également la localisation spatiale des régions incohérentes. À notre connaissance, il s’agit de la première méthode qui prend en charge à la fois la quantification et la localisation des incohérences dans la génération pilotée par sujet, offrant ainsi un outil précieux pour faire progresser cette tâche. Page du projet : https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features from the backbones of pre-trained diffusion models, enabling visual correspondence in a manner analogous to the well-established semantic correspondence. While diffusion model backbones are known to encode semantically rich features, they must also contain visual features to support their image synthesis capabilities. However, isolating these visual features is challenging due to the absence of annotated datasets. To address this, we introduce an automated pipeline that constructs image pairs with annotated semantic and visual correspondences based on existing subject-driven image generation datasets, and design a contrastive architecture to separate the two feature types. Leveraging the disentangled representations, we propose a new metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies in subject-driven image generation. Empirical results show that our approach outperforms global feature-based metrics such as CLIP, DINO, and vision--language models in quantifying visual inconsistencies while also enabling spatial localization of inconsistent regions. To our knowledge, this is the first method that supports both quantification and localization of inconsistencies in subject-driven generation, offering a valuable tool for advancing this task. Project Page:https://abdo-eldesokey.github.io/mind-the-glitch/
PDF182September 29, 2025