Улучшение пространственного понимания в генерации изображений с помощью моделирования вознаграждения
Enhancing Spatial Understanding in Image Generation via Reward Modeling
February 27, 2026
Авторы: Zhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou
cs.AI
Аннотация
Последние достижения в области генерации изображений по текстовым описаниям значительно повысили визуальную достоверность и креативность, но также предъявили более высокие требования к сложности промптов — особенно в части кодирования сложных пространственных отношений. В таких случаях достижение удовлетворительных результатов часто требует множественных попыток сэмплирования. Для решения этой проблемы мы представляем новый метод, усиливающий пространственное понимание современных моделей генерации изображений. Сначала мы создали SpatialReward-Dataset, содержащий более 80 тыс. пар предпочтений. На основе этого набора данных мы построили SpatialScore — оценочную модель, предназначенную для оценки точности пространственных отношений в генерации изображений по тексту, которая демонстрирует результаты, превосходящие даже ведущие проприетарные модели в пространственной оценке. Мы также показываем, что данная оценочная модель эффективно обеспечивает онлайн-обучение с подкреплением для сложной пространственной генерации. Многочисленные эксперименты на различных бенчмарках демонстрируют, что наша специализированная оценочная модель обеспечивает значительный и стабильный прогресс в понимании пространственных аспектов при генерации изображений.
English
Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.