Aprimorando a Compreensão Espacial na Geração de Imagens por meio de Modelagem de Recompensa

Resumo

Os recentes avanços na geração de texto para imagem têm melhorado significativamente a fidelidade visual e a criatividade, mas também impuseram demandas mais elevadas quanto à complexidade dos comandos textuais – particularmente na codificação de relações espaciais intrincadas. Nestes casos, alcançar resultados satisfatórios frequentemente requer múltiplas tentativas de amostragem. Para enfrentar este desafio, introduzimos um método inovador que reforça a compreensão espacial dos modelos atuais de geração de imagens. Primeiro, construímos o SpatialReward-Dataset com mais de 80 mil pares de preferência. Com base neste conjunto de dados, desenvolvemos o SpatialScore, um modelo de recompensa projetado para avaliar a precisão das relações espaciais na geração de texto para imagem, alcançando um desempenho que supera até mesmo modelos proprietários líderes na avaliação espacial. Demonstramos ainda que este modelo de recompensa permite efetivamente o aprendizado por reforço online para a geração espacial complexa. Experimentos extensivos em múltiplos benchmarks mostram que nosso modelo de recompensa especializado produz ganhos significativos e consistentes na compreensão espacial para geração de imagens.

English

Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.