Verbetering van Ruimtelijk Begrip in Beeldgeneratie via Beloningsmodellering
Enhancing Spatial Understanding in Image Generation via Reward Modeling
February 27, 2026
Auteurs: Zhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou
cs.AI
Samenvatting
Recente vooruitgang in tekst-naar-beeldgeneratie heeft de visuele kwaliteit en creativiteit sterk verbeterd, maar heeft ook hogere eisen gesteld aan de complexiteit van prompts – met name bij het coderen van ingewikkelde ruimtelijke relaties. In dergelijke gevallen zijn vaak meerdere generatiepogingen nodig om bevredigende resultaten te bereiken. Om deze uitdaging aan te pakken, introduceren we een nieuwe methode die het ruimtelijk begrip van huidige beeldgeneratiemodellen versterkt. We construeren eerst de SpatialReward-Dataset met meer dan 80k voorkeursparen. Op basis van deze dataset bouwen we SpatialScore, een beloningsmodel dat is ontworpen om de nauwkeurigheid van ruimtelijke relaties in tekst-naar-beeldgeneratie te evalueren, waarbij het prestaties bereikt die zelfs superieur zijn aan toonaangevende propriëtaire modellen bij ruimtelijke evaluatie. We tonen verder aan dat dit beloningsmodel effectief online reinforcement learning mogelijk maakt voor complexe ruimtelijke generatie. Uitgebreide experimenten op meerdere benchmarks tonen aan dat ons gespecialiseerde beloningsmodel aanzienlijke en consistente verbeteringen oplevert in het ruimtelijk begrip voor beeldgeneratie.
English
Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.