Mind-the-Glitch: Visuele Correspondentie voor het Detecteren van Inconsistenties in Onderwerp-Gedreven Generatie

Samenvatting

We stellen een nieuwe aanpak voor om visuele en semantische kenmerken te ontwarren uit de backbones van vooraf getrainde diffusiemodellen, waardoor visuele correspondentie mogelijk wordt op een manier die vergelijkbaar is met de goed ingeburgerde semantische correspondentie. Hoewel bekend is dat de backbones van diffusiemodellen semantisch rijke kenmerken coderen, moeten ze ook visuele kenmerken bevatten om hun beeld-synthesecapaciteiten te ondersteunen. Het isoleren van deze visuele kenmerken is echter uitdagend vanwege het ontbreken van geannoteerde datasets. Om dit aan te pakken, introduceren we een geautomatiseerde pijplijn die beeldparen construeert met geannoteerde semantische en visuele correspondenties op basis van bestaande datasets voor subject-gestuurde beeldgeneratie, en ontwerpen we een contrastieve architectuur om de twee kenmerktypen te scheiden. Door gebruik te maken van de ontwarde representaties, stellen we een nieuwe metriek voor, Visual Semantic Matching (VSM), die visuele inconsistenties in subject-gestuurde beeldgeneratie kwantificeert. Empirische resultaten tonen aan dat onze aanpak globale kenmerk-gebaseerde metrieken zoals CLIP, DINO en vision-language modellen overtreft in het kwantificeren van visuele inconsistenties, terwijl het ook de ruimtelijke lokalisatie van inconsistente regio's mogelijk maakt. Voor zover wij weten, is dit de eerste methode die zowel kwantificering als lokalisatie van inconsistenties in subject-gestuurde generatie ondersteunt, wat een waardevol hulpmiddel biedt voor het bevorderen van deze taak. Projectpagina: https://abdo-eldesokey.github.io/mind-the-glitch/

English

We propose a novel approach for disentangling visual and semantic features from the backbones of pre-trained diffusion models, enabling visual correspondence in a manner analogous to the well-established semantic correspondence. While diffusion model backbones are known to encode semantically rich features, they must also contain visual features to support their image synthesis capabilities. However, isolating these visual features is challenging due to the absence of annotated datasets. To address this, we introduce an automated pipeline that constructs image pairs with annotated semantic and visual correspondences based on existing subject-driven image generation datasets, and design a contrastive architecture to separate the two feature types. Leveraging the disentangled representations, we propose a new metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies in subject-driven image generation. Empirical results show that our approach outperforms global feature-based metrics such as CLIP, DINO, and vision--language models in quantifying visual inconsistencies while also enabling spatial localization of inconsistent regions. To our knowledge, this is the first method that supports both quantification and localization of inconsistencies in subject-driven generation, offering a valuable tool for advancing this task. Project Page:https://abdo-eldesokey.github.io/mind-the-glitch/

Mind-the-Glitch: Visuele Correspondentie voor het Detecteren van Inconsistenties in Onderwerp-Gedreven Generatie

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

Samenvatting

Support