Amélioration de la compréhension spatiale dans la génération d'images par modélisation de récompense

Résumé

Les récents progrès en génération d'images à partir de texte ont considérablement amélioré la fidélité visuelle et la créativité, mais ils ont également imposé des exigences plus élevées quant à la complexité des invites - particulièrement pour encoder des relations spatiales complexes. Dans de tels cas, obtenir des résultats satisfaisants nécessite souvent plusieurs tentatives d'échantillonnage. Pour relever ce défi, nous présentons une méthode novatrice qui renforce la compréhension spatiale des modèles actuels de génération d'images. Nous construisons d'abord le SpatialReward-Dataset contenant plus de 80 000 paires de préférences. Sur la base de cet ensemble de données, nous développons SpatialScore, un modèle de récompense conçu pour évaluer la précision des relations spatiales dans la génération d'images à partir de texte, atteignant des performances qui surpassent même les modèles propriétaires leaders en évaluation spatiale. Nous démontrons en outre que ce modèle de récompense permet efficacement un apprentissage par renforcement en ligne pour la génération spatiale complexe. Des expériences approfondies sur plusieurs benchmarks montrent que notre modèle de récompense spécialisé produit des gains significatifs et cohérents dans la compréhension spatiale pour la génération d'images.

English

Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.

Amélioration de la compréhension spatiale dans la génération d'images par modélisation de récompense

Enhancing Spatial Understanding in Image Generation via Reward Modeling

Résumé

Support