Mind-the-Glitch: Визуальное соответствие для выявления несоответствий в генерации, управляемой объектом
Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation
September 26, 2025
Авторы: Abdelrahman Eldesokey, Aleksandar Cvejic, Bernard Ghanem, Peter Wonka
cs.AI
Аннотация
Мы предлагаем новый подход для разделения визуальных и семантических признаков из базовых архитектур предобученных диффузионных моделей, что позволяет установить визуальное соответствие, аналогичное хорошо известному семантическому соответствию. Хотя известно, что базовые архитектуры диффузионных моделей кодируют семантически богатые признаки, они также должны содержать визуальные признаки для поддержки их способности синтезировать изображения. Однако выделение этих визуальных признаков является сложной задачей из-за отсутствия аннотированных наборов данных. Для решения этой проблемы мы представляем автоматизированный конвейер, который создает пары изображений с аннотированными семантическими и визуальными соответствиями на основе существующих наборов данных для генерации изображений, управляемых объектами, и разрабатываем контрастивную архитектуру для разделения этих двух типов признаков. Используя разделенные представления, мы предлагаем новую метрику — Visual Semantic Matching (VSM), которая количественно оценивает визуальные несоответствия в генерации изображений, управляемых объектами. Экспериментальные результаты показывают, что наш подход превосходит глобальные метрики на основе признаков, такие как CLIP, DINO и модели "визуальный язык", в количественной оценке визуальных несоответствий, а также позволяет локализовать несоответствующие области в пространстве. Насколько нам известно, это первый метод, который поддерживает как количественную оценку, так и локализацию несоответствий в генерации, управляемой объектами, предлагая ценный инструмент для продвижения этой задачи. Страница проекта: https://abdo-eldesokey.github.io/mind-the-glitch/
English
We propose a novel approach for disentangling visual and semantic features
from the backbones of pre-trained diffusion models, enabling visual
correspondence in a manner analogous to the well-established semantic
correspondence. While diffusion model backbones are known to encode
semantically rich features, they must also contain visual features to support
their image synthesis capabilities. However, isolating these visual features is
challenging due to the absence of annotated datasets. To address this, we
introduce an automated pipeline that constructs image pairs with annotated
semantic and visual correspondences based on existing subject-driven image
generation datasets, and design a contrastive architecture to separate the two
feature types. Leveraging the disentangled representations, we propose a new
metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies
in subject-driven image generation. Empirical results show that our approach
outperforms global feature-based metrics such as CLIP, DINO, and
vision--language models in quantifying visual inconsistencies while also
enabling spatial localization of inconsistent regions. To our knowledge, this
is the first method that supports both quantification and localization of
inconsistencies in subject-driven generation, offering a valuable tool for
advancing this task. Project
Page:https://abdo-eldesokey.github.io/mind-the-glitch/