Mind-the-Glitch: Визуальное соответствие для выявления несоответствий в генерации, управляемой объектом

Аннотация

Мы предлагаем новый подход для разделения визуальных и семантических признаков из базовых архитектур предобученных диффузионных моделей, что позволяет установить визуальное соответствие, аналогичное хорошо известному семантическому соответствию. Хотя известно, что базовые архитектуры диффузионных моделей кодируют семантически богатые признаки, они также должны содержать визуальные признаки для поддержки их способности синтезировать изображения. Однако выделение этих визуальных признаков является сложной задачей из-за отсутствия аннотированных наборов данных. Для решения этой проблемы мы представляем автоматизированный конвейер, который создает пары изображений с аннотированными семантическими и визуальными соответствиями на основе существующих наборов данных для генерации изображений, управляемых объектами, и разрабатываем контрастивную архитектуру для разделения этих двух типов признаков. Используя разделенные представления, мы предлагаем новую метрику — Visual Semantic Matching (VSM), которая количественно оценивает визуальные несоответствия в генерации изображений, управляемых объектами. Экспериментальные результаты показывают, что наш подход превосходит глобальные метрики на основе признаков, такие как CLIP, DINO и модели "визуальный язык", в количественной оценке визуальных несоответствий, а также позволяет локализовать несоответствующие области в пространстве. Насколько нам известно, это первый метод, который поддерживает как количественную оценку, так и локализацию несоответствий в генерации, управляемой объектами, предлагая ценный инструмент для продвижения этой задачи. Страница проекта: https://abdo-eldesokey.github.io/mind-the-glitch/

English

We propose a novel approach for disentangling visual and semantic features from the backbones of pre-trained diffusion models, enabling visual correspondence in a manner analogous to the well-established semantic correspondence. While diffusion model backbones are known to encode semantically rich features, they must also contain visual features to support their image synthesis capabilities. However, isolating these visual features is challenging due to the absence of annotated datasets. To address this, we introduce an automated pipeline that constructs image pairs with annotated semantic and visual correspondences based on existing subject-driven image generation datasets, and design a contrastive architecture to separate the two feature types. Leveraging the disentangled representations, we propose a new metric, Visual Semantic Matching (VSM), that quantifies visual inconsistencies in subject-driven image generation. Empirical results show that our approach outperforms global feature-based metrics such as CLIP, DINO, and vision--language models in quantifying visual inconsistencies while also enabling spatial localization of inconsistent regions. To our knowledge, this is the first method that supports both quantification and localization of inconsistencies in subject-driven generation, offering a valuable tool for advancing this task. Project Page:https://abdo-eldesokey.github.io/mind-the-glitch/

Mind-the-Glitch: Визуальное соответствие для выявления несоответствий в генерации, управляемой объектом

Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation

Аннотация

Support