보상 모델링을 통한 이미지 생성의 공간적 이해 향상
Enhancing Spatial Understanding in Image Generation via Reward Modeling
February 27, 2026
저자: Zhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou
cs.AI
초록
텍스트-이미지 생성 분야의 최근 발전은 시각적 정확도와 창의성을 크게 향상시켰지만, 복잡한 공간 관계를 인코딩하는 등 프롬프트의 복잡성에 대한 요구도 함께 증가시켰습니다. 이러한 경우 만족스러운 결과를 얻기 위해서는 여러 번의 샘플링 시도가 필요한 경우가 많습니다. 이러한 문제를 해결하기 위해 우리는 현재 이미지 생성 모델의 공간 이해 능력을 강화하는 새로운 방법을 제안합니다. 먼저 8만 개 이상의 선호도 쌍으로 구성된 SpatialReward-Dataset을 구축했습니다. 이 데이터셋을 기반으로 텍스트-이미지 생성에서 공간 관계의 정확성을 평가하도록 설계된 보상 모델인 SpatialScore를 개발했으며, 이 모델은 공간 평가에서 선도적인 독점 모델들을 능가하는 성능을 달성했습니다. 또한 이 보상 모델이 복잡한 공간 생성 작업을 위한 온라인 강화 학습을 효과적으로 가능하게 함을 입증했습니다. 다양한 벤치마크에서 진행한 폭넓은 실험을 통해, 우리의 전문화된 보상 모델이 이미지 생성의 공간 이해 능력에서 현저하고 일관된 성능 향상을 가져옴을 확인했습니다.
English
Recent progress in text-to-image generation has greatly advanced visual fidelity and creativity, but it has also imposed higher demands on prompt complexity-particularly in encoding intricate spatial relationships. In such cases, achieving satisfactory results often requires multiple sampling attempts. To address this challenge, we introduce a novel method that strengthens the spatial understanding of current image generation models. We first construct the SpatialReward-Dataset with over 80k preference pairs. Building on this dataset, we build SpatialScore, a reward model designed to evaluate the accuracy of spatial relationships in text-to-image generation, achieving performance that even surpasses leading proprietary models on spatial evaluation. We further demonstrate that this reward model effectively enables online reinforcement learning for the complex spatial generation. Extensive experiments across multiple benchmarks show that our specialized reward model yields significant and consistent gains in spatial understanding for image generation.