Mind-the-Glitch: Corrispondenza visiva per il rilevamento di incongruenze nella generazione guidata dal soggetto
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation
September 26, 2025
Autori: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI
Abstract
Proponiamo un approccio innovativo per separare le caratteristiche visive e semantiche dai backbone dei modelli di diffusione pre-addestrati, consentendo una corrispondenza visiva in modo analogo alla ben consolidata corrispondenza semantica. Sebbene sia noto che i backbone dei modelli di diffusione codifichino caratteristiche semanticamente ricche, devono anche contenere caratteristiche visive per supportare le loro capacità di sintesi delle immagini. Tuttavia, isolare queste caratteristiche visive è impegnativo a causa dell'assenza di dataset annotati. Per affrontare questo problema, introduciamo una pipeline automatizzata che costruisce coppie di immagini con corrispondenze semantiche e visive annotate basate su dataset esistenti di generazione di immagini guidata da soggetti, e progettiamo un'architettura contrastiva per separare i due tipi di caratteristiche. Sfruttando le rappresentazioni separate, proponiamo una nuova metrica, Visual Semantic Matching (VSM), che quantifica le incoerenze visive nella generazione di immagini guidata da soggetti. I risultati empirici dimostrano che il nostro approccio supera le metriche basate su caratteristiche globali come CLIP, DINO e i modelli visione-linguaggio nel quantificare le incoerenze visive, consentendo anche la localizzazione spaziale delle regioni incoerenti. A nostra conoscenza, questo è il primo metodo che supporta sia la quantificazione che la localizzazione delle incoerenze nella generazione guidata da soggetti, offrendo uno strumento prezioso per avanzare in questo compito. Pagina del progetto: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features
from the backbones of pre-trained diffusion models, enabling visual
correspondence in a manner analogous to the well-established semantic
correspondence. While diffusion model backbones are known to encode
semantically rich features, they must also contain visual features to support
their image synthesis capabilities. However, isolating these visual features is
challenging due to the absence of annotated datasets. To address this, we
introduce an automated pipeline that constructs image pairs with annotated
semantic and visual correspondences based on existing subject-driven image
generation datasets, and design a contrastive architecture to separate the two
feature types. Leveraging the disentangled representations, we propose a new
metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies
in subject-driven image generation. Empirical results show that our approach
outperforms global feature-based metrics such as CLIP, DINO, and
vision--language models in quantifying visual inconsistencies while also
enabling spatial localization of inconsistent regions. To our knowledge, this
is the first method that supports both quantification and localization of
inconsistencies in subject-driven generation, offering a valuable tool for
advancing this task. Project
Page:https://abdo-eldesokey.github.io/mind-the-glitch/