ChatPaper.aiChatPaper

Mejora de la Comprensión Espacial en la Generación de Imágenes mediante Modelado de Recompensas

Enhancing Spatial Understanding in Image Generation via Reward Modeling

February 27, 2026
Autores: Zhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou
cs.AI

Resumen

Los recientes avances en la generación de texto a imagen han mejorado enormemente la fidelidad visual y la creatividad, pero también han impuesto mayores exigencias en la complejidad de los prompts, particularmente para codificar relaciones espaciales intrincadas. En estos casos, lograr resultados satisfactorios a menudo requiere múltiples intentos de muestreo. Para abordar este desafío, presentamos un método novedoso que fortalece la comprensión espacial de los modelos actuales de generación de imágenes. Primero construimos el SpatialReward-Dataset con más de 80k pares de preferencias. Basándonos en este conjunto de datos, desarrollamos SpatialScore, un modelo de recompensa diseñado para evaluar la precisión de las relaciones espaciales en la generación de texto a imagen, logrando un rendimiento que incluso supera a los principales modelos propietarios en evaluación espacial. Además, demostramos que este modelo de recompensa permite efectivamente el aprendizaje por refuerzo en línea para la generación espacial compleja. Extensos experimentos en múltiples benchmarks muestran que nuestro modelo de recompensa especializado produce ganancias significativas y consistentes en la comprensión espacial para la generación de imágenes.
English
Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.
PDF473March 7, 2026