Mind-the-Glitch: Correspondencia visual para la detección de inconsistencias en la generación basada en sujetos.
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation
September 26, 2025
Autores: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI
Resumen
Proponemos un enfoque novedoso para desentrañar características visuales y semánticas de los backbones de modelos de difusión preentrenados, permitiendo la correspondencia visual de manera análoga a la bien establecida correspondencia semántica. Si bien se sabe que los backbones de los modelos de difusión codifican características semánticamente ricas, también deben contener características visuales para respaldar sus capacidades de síntesis de imágenes. Sin embargo, aislar estas características visuales es un desafío debido a la ausencia de conjuntos de datos anotados. Para abordar esto, introducimos una pipeline automatizada que construye pares de imágenes con correspondencias semánticas y visuales anotadas basadas en conjuntos de datos existentes de generación de imágenes guiada por sujetos, y diseñamos una arquitectura contrastiva para separar los dos tipos de características. Aprovechando las representaciones desentrañadas, proponemos una nueva métrica, Coincidencia Visual-Semántica (VSM, por sus siglas en inglés), que cuantifica las inconsistencias visuales en la generación de imágenes guiada por sujetos. Los resultados empíricos muestran que nuestro enfoque supera a métricas basadas en características globales como CLIP, DINO y modelos de visión-lenguaje en la cuantificación de inconsistencias visuales, al mismo tiempo que permite la localización espacial de regiones inconsistentes. Hasta donde sabemos, este es el primer método que respalda tanto la cuantificación como la localización de inconsistencias en la generación guiada por sujetos, ofreciendo una herramienta valiosa para avanzar en esta tarea. Página del proyecto: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features
from the backbones of pre-trained diffusion models, enabling visual
correspondence in a manner analogous to the well-established semantic
correspondence. While diffusion model backbones are known to encode
semantically rich features, they must also contain visual features to support
their image synthesis capabilities. However, isolating these visual features is
challenging due to the absence of annotated datasets. To address this, we
introduce an automated pipeline that constructs image pairs with annotated
semantic and visual correspondences based on existing subject-driven image
generation datasets, and design a contrastive architecture to separate the two
feature types. Leveraging the disentangled representations, we propose a new
metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies
in subject-driven image generation. Empirical results show that our approach
outperforms global feature-based metrics such as CLIP, DINO, and
vision--language models in quantifying visual inconsistencies while also
enabling spatial localization of inconsistent regions. To our knowledge, this
is the first method that supports both quantification and localization of
inconsistencies in subject-driven generation, offering a valuable tool for
advancing this task. Project
Page:https://abdo-eldesokey.github.io/mind-the-glitch/