場所、内容、理由、重要度:テキストから画像へのフィードバックのための構造化欠陥接地
Where, What, Why, and Importance: Structured Defect Grounding for Text-to-Image Feedback
June 4, 2026
著者: Huaisong Zhang, Hao Yu, Yuxuan Zhang, Jiahe Wang, Xinrui Chen, Haoxiang Cao, Feng Lu, Wendong Zhang, Changqian Yu, Chun Yuan
cs.AI
要旨
ますます写実的な画像を生成するようになったテキスト・トゥ・イメージ(T2I)モデルは、依然として局所的で微妙かつ構造的に複雑な欠陥を示す。これらの欠陥を診断するには、欠陥が発生した場所、その種類、欠陥の理由、および全体的な画像品質に対する重要度を回答するインスタンスレベルのフィードバックが必要である。近年の高密度フィードバック手法はスカラー監視を超えるものの、ヒートマップ中心の表現は依然として診断をピクセル場回帰として定式化しており、可変基数の欠陥を特定し、セマンティックな理由を個々の欠陥に結びつけることが困難である。この表現のボトルネックに対処するため、我々はStructured Defect Grounding(SDG)を提案する。これは各欠陥を(位置、種類、理由、重要度)のタプルとしてモデル化することで、T2I診断を構造化集合予測として扱うものである。この定式化を訓練可能かつ測定可能にするため、我々は30,000枚の画像からなるデータセットSDG-30Kを導入する。これは4つの現代的なT2I生成器にわたるボックス接地アノテーションと、専用の評価プロトコルSDG-Evalを備えている。この構造化表現に基づき、我々はさらに診断からアラインメントへのフレームワークを提示する。そこでは視覚言語モデル(VLM)がSDG検出器として機能し、BoxFlow-GRPOが予測された欠陥集合を、ボックス由来で重要度重み付けされた空間的報酬に変換し、拡散モデルのアラインメントに用いる。広範な実験により、我々のSDG検出器が構造化欠陥接地において主要なプロプライエタリVLMを上回り、SDG誘導報酬が一貫してT2Iアラインメントを改善し、局所的な画像改善を支援することが示された。これらの結果は、SDGを現代の生成モデルを診断、評価、強化するための統一的でインスタンスレベルのインターフェースとして確立するものである。
English
Despite generating increasingly photorealistic images, text-to-image (T2I) models still exhibit localized, subtle, and structurally complex failures. Diagnosing these failures requires instance-level feedback that answers where a defect occurs, what type it is, why it is defective, and its importance to overall image quality. While recent dense-feedback methods move beyond scalar supervision, their heatmap-centric representations still formulate diagnosis as pixel-field regression, making it difficult to localize variable-cardinality defects and bind semantic reasons to individual failures. To address this representation bottleneck, we propose Structured Defect Grounding (SDG), which casts T2I diagnosis as structured set prediction by modeling each defect as a (location, type, reason, importance) tuple. To make this formulation trainable and measurable, we introduce SDG-30K, a 30K-image dataset with box-grounded annotations across four modern T2I generators, together with a dedicated evaluation protocol, SDG-Eval. Building on this structured representation, we further present a diagnosis-to-alignment framework in which a Vision-Language Model (VLM) serves as the SDG detector, and BoxFlow-GRPO converts predicted defect sets into box-derived, importance-weighted spatial rewards for diffusion model alignment. Extensive experiments show that our SDG detector outperforms leading proprietary VLMs on structured defect grounding, while SDG-guided rewards consistently improve T2I alignment and support localized image refinement. These results establish SDG as a unified, instance-level interface for diagnosing, evaluating, and enhancing modern generative models.