ChatPaper.aiChatPaper

GoT-R1: 강화 학습을 통한 MLLM의 시각적 생성 능력과 추론 능력의 결합

GoT-R1: Unleashing Reasoning Capability of MLLM for Visual Generation with Reinforcement Learning

May 22, 2025
저자: Chengqi Duan, Rongyao Fang, Yuqing Wang, Kun Wang, Linjiang Huang, Xingyu Zeng, Hongsheng Li, Xihui Liu
cs.AI

초록

시각 생성 모델은 텍스트 프롬프트에서 사실적인 이미지를 생성하는 데 있어 놀라운 진전을 이루었지만, 정확한 공간적 관계와 속성을 가진 여러 객체를 지정하는 복잡한 프롬프트를 처리하는 데는 어려움을 겪고 있습니다. 이러한 프롬프트를 효과적으로 처리하기 위해서는 의미적 내용과 공간적 레이아웃에 대한 명시적인 추론이 필요합니다. 우리는 GoT-R1이라는 프레임워크를 제시하며, 이는 시각 생성에서 의미-공간적 추론을 강화하기 위해 강화 학습을 적용합니다. Generation Chain-of-Thought 접근법을 기반으로, GoT-R1은 모델이 미리 정의된 템플릿을 넘어 효과적인 추론 전략을 자율적으로 발견할 수 있도록 신중하게 설계된 강화 학습을 통해 이를 가능하게 합니다. 이를 위해, 우리는 MLLM(Multi-modal Large Language Models)을 활용하여 추론 과정과 최종 출력을 모두 평가하는 이중 단계 다차원 보상 프레임워크를 제안하며, 이는 전체 생성 파이프라인에 걸쳐 효과적인 감독을 가능하게 합니다. 이 보상 시스템은 의미적 정렬, 공간적 정확도, 그리고 시각적 품질을 통합적으로 평가합니다. 실험 결과는 T2I-CompBench 벤치마크에서 특히 정확한 공간적 관계와 속성 바인딩을 포함하는 구성 작업에서 상당한 개선을 보여줍니다. GoT-R1은 정교한 추론 능력을 시각 생성 영역으로 성공적으로 전이함으로써 이미지 생성의 최신 기술을 발전시킵니다. 향후 연구를 촉진하기 위해, 우리는 코드와 사전 학습된 모델을 https://github.com/gogoduan/GoT-R1에서 공개적으로 제공합니다.
English
Visual generation models have made remarkable progress in creating realistic images from text prompts, yet struggle with complex prompts that specify multiple objects with precise spatial relationships and attributes. Effective handling of such prompts requires explicit reasoning about the semantic content and spatial layout. We present GoT-R1, a framework that applies reinforcement learning to enhance semantic-spatial reasoning in visual generation. Building upon the Generation Chain-of-Thought approach, GoT-R1 enables models to autonomously discover effective reasoning strategies beyond predefined templates through carefully designed reinforcement learning. To achieve this, we propose a dual-stage multi-dimensional reward framework that leverages MLLMs to evaluate both the reasoning process and final output, enabling effective supervision across the entire generation pipeline. The reward system assesses semantic alignment, spatial accuracy, and visual quality in a unified approach. Experimental results demonstrate significant improvements on T2I-CompBench benchmark, particularly in compositional tasks involving precise spatial relationships and attribute binding. GoT-R1 advances the state-of-the-art in image generation by successfully transferring sophisticated reasoning capabilities to the visual generation domain. To facilitate future research, we make our code and pretrained models publicly available at https://github.com/gogoduan/GoT-R1.

Summary

AI-Generated Summary

PDF232May 23, 2025