Wo, Was, Warum und Bedeutung: Strukturierte Defektverankerung für Text-zu-Bild-Feedback

Zusammenfassung

Trotz der Erzeugung zunehmend fotorealistischer Bilder weisen Text-zu-Bild (T2I)-Modelle weiterhin lokalisierte, subtile und strukturell komplexe Fehler auf. Die Diagnose dieser Fehler erfordert ein Feedback auf Instanzebene, das beantwortet, wo ein Defekt auftritt, um welchen Typ es sich handelt, warum er defekt ist und welche Bedeutung er für die Gesamtbildqualität hat. Während neuere dichte Feedback-Methoden über skalare Überwachung hinausgehen, formulieren ihre heatmap-zentrierten Darstellungen die Diagnose dennoch als Pixelfeld-Regression, was die Lokalisierung von Defekten mit variabler Kardinalität und die Bindung semantischer Gründe an einzelne Fehler erschwert. Um diesen Repräsentationsengpass zu beheben, schlagen wir Structured Defect Grounding (SDG) vor, das die T2I-Diagnose als strukturierte Mengenvorhersage formuliert, indem jeder Defekt als (Ort, Typ, Grund, Wichtigkeit)-Tupel modelliert wird. Um diese Formulierung trainierbar und messbar zu machen, führen wir SDG-30K ein, einen Datensatz mit 30.000 Bildern und boxbasierten Annotationen über vier moderne T2I-Generatoren hinweg, zusammen mit einem dedizierten Auswertungsprotokoll, SDG-Eval. Aufbauend auf dieser strukturierten Darstellung präsentieren wir ferner ein Diagnose-zu-Ausrichtungs-Framework, in dem ein Vision-Language-Modell (VLM) als SDG-Detektor fungiert und BoxFlow-GRPO vorhergesagte Defektmengen in boxabgeleitete, wichtkeitsgewichtete räumliche Belohnungen für die Ausrichtung des Diffusionsmodells umwandelt. Umfangreiche Experimente zeigen, dass unser SDG-Detektor führende proprietäre VLMs beim strukturierten Defekt-Grounding übertrifft, während SDG-geleitete Belohnungen konsequent die T2I-Ausrichtung verbessern und lokalisierte Bildverfeinerungen unterstützen. Diese Ergebnisse etablieren SDG als eine einheitliche Schnittstelle auf Instanzebene zur Diagnose, Bewertung und Verbesserung moderner generativer Modelle.

English

Despite generating increasingly photorealistic images, text-to-image (T2I) models still exhibit localized, subtle, and structurally complex failures. Diagnosing these failures requires instance-level feedback that answers where a defect occurs, what type it is, why it is defective, and its importance to overall image quality. While recent dense-feedback methods move beyond scalar supervision, their heatmap-centric representations still formulate diagnosis as pixel-field regression, making it difficult to localize variable-cardinality defects and bind semantic reasons to individual failures. To address this representation bottleneck, we propose Structured Defect Grounding (SDG), which casts T2I diagnosis as structured set prediction by modeling each defect as a (location, type, reason, importance) tuple. To make this formulation trainable and measurable, we introduce SDG-30K, a 30K-image dataset with box-grounded annotations across four modern T2I generators, together with a dedicated evaluation protocol, SDG-Eval. Building on this structured representation, we further present a diagnosis-to-alignment framework in which a Vision-Language Model (VLM) serves as the SDG detector, and BoxFlow-GRPO converts predicted defect sets into box-derived, importance-weighted spatial rewards for diffusion model alignment. Extensive experiments show that our SDG detector outperforms leading proprietary VLMs on structured defect grounding, while SDG-guided rewards consistently improve T2I alignment and support localized image refinement. These results establish SDG as a unified, instance-level interface for diagnosing, evaluating, and enhancing modern generative models.