Miglioramento della Comprensione Spaziale nella Generazione di Immagini tramite Modellazione delle Ricompense
Enhancing Spatial Understanding in Image Generation via Reward Modeling
February 27, 2026
Autori: Zhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou
cs.AI
Abstract
I recenti progressi nella generazione di immagini da testo hanno notevolmente migliorato la fedeltà visiva e la creatività, ma hanno anche imposto richieste più elevate sulla complessità dei prompt, in particolare per quanto riguarda la codifica di intricate relazioni spaziali. In questi casi, ottenere risultati soddisfacenti richiede spesso molteplici tentativi di campionamento. Per affrontare questa sfida, introduciamo un metodo innovativo che rafforza la comprensione spaziale degli attuali modelli di generazione di immagini. Inizialmente costruiamo il dataset SpatialReward con oltre 80.000 coppie di preferenze. Basandoci su questo dataset, sviluppiamo SpatialScore, un modello di reward progettato per valutare l'accuratezza delle relazioni spaziali nella generazione di immagini da testo, raggiungendo prestazioni che superano persino i principali modelli proprietari nella valutazione spaziale. Dimostriamo inoltre che questo modello di reward abilita efficacemente l'apprendimento per rinforzo online per la generazione spaziale complessa. Esperimenti estesi su molteplici benchmark mostrano che il nostro modello di reward specializzato produce miglioramenti significativi e consistenti nella comprensione spaziale per la generazione di immagini.
English
Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.