Où, Quoi, Pourquoi et Importance : Ancrage structuré des défauts pour la rétroaction texte-image

Résumé

Bien qu'ils génèrent des images de plus en plus photoréalistes, les modèles texte-à-image (T2I) présentent encore des défaillances localisées, subtiles et structurellement complexes. Diagnostiquer ces échecs nécessite un retour d'information au niveau des instances qui répond où un défaut se produit, de quel type il est, pourquoi il est défectueux et son importance pour la qualité globale de l'image. Alors que les récentes méthodes de retour dense vont au-delà de la supervision scalaire, leurs représentations centrées sur les cartes de chaleur formulent toujours le diagnostic comme une régression de champ de pixels, ce qui rend difficile la localisation des défauts à cardinalité variable et le liage des raisons sémantiques à des échecs individuels. Pour remédier à ce goulot d'étranglement de représentation, nous proposons le Structured Defect Grounding (SDG), qui aborde le diagnostic T2I comme une prédiction d'ensembles structurés en modélisant chaque défaut comme un tuple (emplacement, type, raison, importance). Pour rendre cette formulation entraînable et mesurable, nous introduisons SDG-30K, un ensemble de données de 30 000 images avec annotations par boîtes englobantes couvrant quatre générateurs T2I modernes, ainsi qu'un protocole d'évaluation dédié, SDG-Eval. En nous appuyant sur cette représentation structurée, nous présentons en outre un cadre de diagnostic à alignement dans lequel un modèle de vision-langage (VLM) sert de détecteur SDG, et BoxFlow-GRPO convertit les ensembles de défauts prédits en récompenses spatiales pondérées par importance et dérivées de boîtes pour l'alignement du modèle de diffusion. Des expériences approfondies montrent que notre détecteur SDG surpasse les principaux VLM propriétaires sur le grounding structuré des défauts, tandis que les récompenses guidées par SDG améliorent systématiquement l'alignement T2I et soutiennent le raffinement localisé de l'image. Ces résultats établissent SDG comme une interface unifiée au niveau des instances pour diagnostiquer, évaluer et améliorer les modèles génératifs modernes.

English

Despite generating increasingly photorealistic images, text-to-image (T2I) models still exhibit localized, subtle, and structurally complex failures. Diagnosing these failures requires instance-level feedback that answers where a defect occurs, what type it is, why it is defective, and its importance to overall image quality. While recent dense-feedback methods move beyond scalar supervision, their heatmap-centric representations still formulate diagnosis as pixel-field regression, making it difficult to localize variable-cardinality defects and bind semantic reasons to individual failures. To address this representation bottleneck, we propose Structured Defect Grounding (SDG), which casts T2I diagnosis as structured set prediction by modeling each defect as a (location, type, reason, importance) tuple. To make this formulation trainable and measurable, we introduce SDG-30K, a 30K-image dataset with box-grounded annotations across four modern T2I generators, together with a dedicated evaluation protocol, SDG-Eval. Building on this structured representation, we further present a diagnosis-to-alignment framework in which a Vision-Language Model (VLM) serves as the SDG detector, and BoxFlow-GRPO converts predicted defect sets into box-derived, importance-weighted spatial rewards for diffusion model alignment. Extensive experiments show that our SDG detector outperforms leading proprietary VLMs on structured defect grounding, while SDG-guided rewards consistently improve T2I alignment and support localized image refinement. These results establish SDG as a unified, instance-level interface for diagnosing, evaluating, and enhancing modern generative models.