Где, Что, Почему и Значимость: структурированное обоснование дефектов для обратной связи от текста к изображению

Аннотация

Несмотря на создание все более фотореалистичных изображений, модели текст-в-изображение (T2I) по-прежнему демонстрируют локализованные, малозаметные и структурно сложные сбои. Диагностика этих сбоев требует обратной связи на уровне экземпляров, которая отвечает на вопросы о том, где возникает дефект, какого он типа, почему он является дефектным и какова его важность для общего качества изображения. Хотя недавние методы плотной обратной связи выходят за рамки скалярного контроля, их представления, ориентированные на тепловые карты, по-прежнему формулируют диагностику как регрессию пиксельного поля, что затрудняет локализацию дефектов с переменной мощностью и привязку семантических причин к отдельным сбоям. Чтобы устранить это узкое место представления, мы предлагаем структурированное обоснование дефектов (SDG), которое формулирует диагностику T2I как предсказание структурированного набора, моделируя каждый дефект в виде кортежа (местоположение, тип, причина, важность). Чтобы сделать эту формулировку обучаемой и измеримой, мы представляем SDG-30K — набор данных из 30 тысяч изображений с аннотациями на основе ограничивающих рамок для четырех современных генераторов T2I, а также специальный протокол оценки SDG-Eval. Основываясь на этом структурированном представлении, мы также представляем фреймворк от диагностики к выравниванию, в котором модель зрения-языка (VLM) служит детектором SDG, а BoxFlow-GRPO преобразует предсказанные наборы дефектов в пространственные вознаграждения, полученные из ограничивающих рамок и взвешенные по важности, для выравнивания диффузионной модели. Обширные эксперименты показывают, что наш детектор SDG превосходит ведущие проприетарные VLM в структурированном обосновании дефектов, в то время как вознаграждения, направляемые SDG, последовательно улучшают выравнивание T2I и поддерживают локализованное уточнение изображений. Эти результаты утверждают SDG как унифицированный интерфейс на уровне экземпляров для диагностики, оценки и улучшения современных генеративных моделей.

English

Despite generating increasingly photorealistic images, text-to-image (T2I) models still exhibit localized, subtle, and structurally complex failures. Diagnosing these failures requires instance-level feedback that answers where a defect occurs, what type it is, why it is defective, and its importance to overall image quality. While recent dense-feedback methods move beyond scalar supervision, their heatmap-centric representations still formulate diagnosis as pixel-field regression, making it difficult to localize variable-cardinality defects and bind semantic reasons to individual failures. To address this representation bottleneck, we propose Structured Defect Grounding (SDG), which casts T2I diagnosis as structured set prediction by modeling each defect as a (location, type, reason, importance) tuple. To make this formulation trainable and measurable, we introduce SDG-30K, a 30K-image dataset with box-grounded annotations across four modern T2I generators, together with a dedicated evaluation protocol, SDG-Eval. Building on this structured representation, we further present a diagnosis-to-alignment framework in which a Vision-Language Model (VLM) serves as the SDG detector, and BoxFlow-GRPO converts predicted defect sets into box-derived, importance-weighted spatial rewards for diffusion model alignment. Extensive experiments show that our SDG detector outperforms leading proprietary VLMs on structured defect grounding, while SDG-guided rewards consistently improve T2I alignment and support localized image refinement. These results establish SDG as a unified, instance-level interface for diagnosing, evaluating, and enhancing modern generative models.