Mind-the-Glitch: Visuelle Korrespondenz zur Erkennung von Inkonsistenzen in der subjektgesteuerten Generierung

papers.abstract

Wir schlagen einen neuartigen Ansatz vor, um visuelle und semantische Merkmale aus den Backbones vortrainierter Diffusionsmodelle zu entflechten, wodurch visuelle Korrespondenz in Analogie zur etablierten semantischen Korrespondenz ermöglicht wird. Während bekannt ist, dass die Backbones von Diffusionsmodellen semantisch reichhaltige Merkmale kodieren, müssen sie auch visuelle Merkmale enthalten, um ihre Bildsynthesefähigkeiten zu unterstützen. Die Isolierung dieser visuellen Merkmale ist jedoch aufgrund des Fehlens annotierter Datensätze eine Herausforderung. Um dies zu adressieren, führen wir eine automatisierte Pipeline ein, die Bildpaare mit annotierten semantischen und visuellen Korrespondenzen auf Basis bestehender, subjektgetriebener Bildgenerierungsdatensätze konstruiert, und entwerfen eine kontrastive Architektur, um die beiden Merkmalstypen zu trennen. Durch die Nutzung der entflochtenen Repräsentationen schlagen wir eine neue Metrik vor, das Visual Semantic Matching (VSM), das visuelle Inkonsistenzen in der subjektgetriebenen Bildgenerierung quantifiziert. Empirische Ergebnisse zeigen, dass unser Ansatz globale, merkmalsbasierte Metriken wie CLIP, DINO und Vision-Language-Modelle bei der Quantifizierung visueller Inkonsistenzen übertrifft und gleichzeitig die räumliche Lokalisierung inkonsistenter Regionen ermöglicht. Unseres Wissens ist dies die erste Methode, die sowohl die Quantifizierung als auch die Lokalisierung von Inkonsistenzen in der subjektgetriebenen Generierung unterstützt, und bietet somit ein wertvolles Werkzeug zur Weiterentwicklung dieser Aufgabe. Projektseite: https://abdo-eldesokey.github.io/mind-the-glitch/

English

We propose a novel approach for disentangling visual and semantic features from the backbones of pre-trained diffusion models, enabling visual correspondence in a manner analogous to the well-established semantic correspondence. While diffusion model backbones are known to encode semantically rich features, they must also contain visual features to support their image synthesis capabilities. However, isolating these visual features is challenging due to the absence of annotated datasets. To address this, we introduce an automated pipeline that constructs image pairs with annotated semantic and visual correspondences based on existing subject-driven image generation datasets, and design a contrastive architecture to separate the two feature types. Leveraging the disentangled representations, we propose a new metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies in subject-driven image generation. Empirical results show that our approach outperforms global feature-based metrics such as CLIP, DINO, and vision--language models in quantifying visual inconsistencies while also enabling spatial localization of inconsistent regions. To our knowledge, this is the first method that supports both quantification and localization of inconsistencies in subject-driven generation, offering a valuable tool for advancing this task. Project Page:https://abdo-eldesokey.github.io/mind-the-glitch/

Mind-the-Glitch: Visuelle Korrespondenz zur Erkennung von Inkonsistenzen in der subjektgesteuerten Generierung

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

papers.abstract

Support