Mind-the-Glitch: Visuele Correspondentie voor het Detecteren van Inconsistenties in Onderwerp-Gedreven Generatie
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation
September 26, 2025
Auteurs: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI
Samenvatting
We stellen een nieuwe aanpak voor om visuele en semantische kenmerken te ontwarren uit de backbones van vooraf getrainde diffusiemodellen, waardoor visuele correspondentie mogelijk wordt op een manier die vergelijkbaar is met de goed ingeburgerde semantische correspondentie. Hoewel bekend is dat de backbones van diffusiemodellen semantisch rijke kenmerken coderen, moeten ze ook visuele kenmerken bevatten om hun beeld-synthesecapaciteiten te ondersteunen. Het isoleren van deze visuele kenmerken is echter uitdagend vanwege het ontbreken van geannoteerde datasets. Om dit aan te pakken, introduceren we een geautomatiseerde pijplijn die beeldparen construeert met geannoteerde semantische en visuele correspondenties op basis van bestaande datasets voor subject-gestuurde beeldgeneratie, en ontwerpen we een contrastieve architectuur om de twee kenmerktypen te scheiden. Door gebruik te maken van de ontwarde representaties, stellen we een nieuwe metriek voor, Visual Semantic Matching (VSM), die visuele inconsistenties in subject-gestuurde beeldgeneratie kwantificeert. Empirische resultaten tonen aan dat onze aanpak globale kenmerk-gebaseerde metrieken zoals CLIP, DINO en vision-language modellen overtreft in het kwantificeren van visuele inconsistenties, terwijl het ook de ruimtelijke lokalisatie van inconsistente regio's mogelijk maakt. Voor zover wij weten, is dit de eerste methode die zowel kwantificering als lokalisatie van inconsistenties in subject-gestuurde generatie ondersteunt, wat een waardevol hulpmiddel biedt voor het bevorderen van deze taak. Projectpagina: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features
from the backbones of pre-trained diffusion models, enabling visual
correspondence in a manner analogous to the well-established semantic
correspondence. While diffusion model backbones are known to encode
semantically rich features, they must also contain visual features to support
their image synthesis capabilities. However, isolating these visual features is
challenging due to the absence of annotated datasets. To address this, we
introduce an automated pipeline that constructs image pairs with annotated
semantic and visual correspondences based on existing subject-driven image
generation datasets, and design a contrastive architecture to separate the two
feature types. Leveraging the disentangled representations, we propose a new
metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies
in subject-driven image generation. Empirical results show that our approach
outperforms global feature-based metrics such as CLIP, DINO, and
vision--language models in quantifying visual inconsistencies while also
enabling spatial localization of inconsistent regions. To our knowledge, this
is the first method that supports both quantification and localization of
inconsistencies in subject-driven generation, offering a valuable tool for
advancing this task. Project
Page:https://abdo-eldesokey.github.io/mind-the-glitch/