Mind-the-Glitch: Visuelle Korrespondenz zur Erkennung von Inkonsistenzen in der subjektgesteuerten Generierung
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation
September 26, 2025
papers.authors: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI
papers.abstract
Wir schlagen einen neuartigen Ansatz vor, um visuelle und semantische Merkmale aus den Backbones vortrainierter Diffusionsmodelle zu entflechten, wodurch visuelle Korrespondenz in Analogie zur etablierten semantischen Korrespondenz ermöglicht wird. Während bekannt ist, dass die Backbones von Diffusionsmodellen semantisch reichhaltige Merkmale kodieren, müssen sie auch visuelle Merkmale enthalten, um ihre Bildsynthesefähigkeiten zu unterstützen. Die Isolierung dieser visuellen Merkmale ist jedoch aufgrund des Fehlens annotierter Datensätze eine Herausforderung. Um dies zu adressieren, führen wir eine automatisierte Pipeline ein, die Bildpaare mit annotierten semantischen und visuellen Korrespondenzen auf Basis bestehender, subjektgetriebener Bildgenerierungsdatensätze konstruiert, und entwerfen eine kontrastive Architektur, um die beiden Merkmalstypen zu trennen. Durch die Nutzung der entflochtenen Repräsentationen schlagen wir eine neue Metrik vor, das Visual Semantic Matching (VSM), das visuelle Inkonsistenzen in der subjektgetriebenen Bildgenerierung quantifiziert. Empirische Ergebnisse zeigen, dass unser Ansatz globale, merkmalsbasierte Metriken wie CLIP, DINO und Vision-Language-Modelle bei der Quantifizierung visueller Inkonsistenzen übertrifft und gleichzeitig die räumliche Lokalisierung inkonsistenter Regionen ermöglicht. Unseres Wissens ist dies die erste Methode, die sowohl die Quantifizierung als auch die Lokalisierung von Inkonsistenzen in der subjektgetriebenen Generierung unterstützt, und bietet somit ein wertvolles Werkzeug zur Weiterentwicklung dieser Aufgabe. Projektseite: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features
from the backbones of pre-trained diffusion models, enabling visual
correspondence in a manner analogous to the well-established semantic
correspondence. While diffusion model backbones are known to encode
semantically rich features, they must also contain visual features to support
their image synthesis capabilities. However, isolating these visual features is
challenging due to the absence of annotated datasets. To address this, we
introduce an automated pipeline that constructs image pairs with annotated
semantic and visual correspondences based on existing subject-driven image
generation datasets, and design a contrastive architecture to separate the two
feature types. Leveraging the disentangled representations, we propose a new
metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies
in subject-driven image generation. Empirical results show that our approach
outperforms global feature-based metrics such as CLIP, DINO, and
vision--language models in quantifying visual inconsistencies while also
enabling spatial localization of inconsistent regions. To our knowledge, this
is the first method that supports both quantification and localization of
inconsistencies in subject-driven generation, offering a valuable tool for
advancing this task. Project
Page:https://abdo-eldesokey.github.io/mind-the-glitch/