Verbesserung des räumlichen Verständnisses in der Bildgenerierung durch Belohnungsmodellierung

Zusammenfassung

Jüngste Fortschritte in der Text-zu-Bild-Generierung haben die visuelle Qualität und Kreativität erheblich vorangetrieben, stellen jedoch auch höhere Anforderungen an die Komplexität der Eingabeaufforderungen – insbesondere bei der Kodierung komplexer räumlicher Beziehungen. In solchen Fällen sind oft mehrere Versuche mit unterschiedlichen Stichproben erforderlich, um zufriedenstellende Ergebnisse zu erzielen. Um diese Herausforderung zu bewältigen, stellen wir eine neuartige Methode vor, die das räumliche Verständnis aktueller Bildgenerierungsmodelle stärkt. Zuerst konstruieren wir den SpatialReward-Datensatz mit über 80.000 Präferenzpaaren. Aufbauend auf diesem Datensatz entwickeln wir SpatialScore, ein Bewertungsmodell, das darauf ausgelegt ist, die Genauigkeit räumlicher Beziehungen in der Text-zu-Bild-Generierung zu bewerten und dabei eine Leistung erzielt, die sogar führende proprietäre Modelle bei der räumlichen Bewertung übertrifft. Wir zeigen weiterhin, dass dieses Bewertungsmodell effektiv Online-Verstärkungslernen für die komplexe räumliche Generierung ermöglicht. Umfangreiche Experimente über mehrere Benchmarks hinweg zeigen, dass unser spezialisiertes Bewertungsmodell signifikante und konsistente Verbesserungen im räumlichen Verständnis für die Bildgenerierung bewirkt.

English

Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.

Verbesserung des räumlichen Verständnisses in der Bildgenerierung durch Belohnungsmodellierung

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Zusammenfassung

Support