T2I-R1: 시맨틱 수준과 토큰 수준의 협력적 CoT를 통한 이미지 생성 강화
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
May 1, 2025
저자: Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li
cs.AI
초록
최근 대규모 언어 모델의 발전은 사고의 연쇄(Chain-of-Thought, CoT)와 강화 학습(Reinforcement Learning, RL)이 성능을 향상시킬 수 있음을 보여주었습니다. 그러나 이러한 추론 전략을 시각적 생성 영역에 적용하는 것은 아직까지 크게 탐구되지 않았습니다. 본 논문에서는 RL과 이중 수준의 CoT 추론 과정을 기반으로 한 새로운 추론 강화 텍스트-이미지 생성 모델인 T2I-R1을 소개합니다. 구체적으로, 우리는 생성의 다양한 단계를 향상시키기 위해 활용할 수 있는 두 가지 수준의 CoT를 식별했습니다: (1) 프롬프트의 상위 수준 계획을 위한 의미 수준의 CoT와 (2) 패치별 생성 과정에서의 저수준 픽셀 처리를 위한 토큰 수준의 CoT입니다. 이 두 수준의 CoT를 더 잘 조정하기 위해, 우리는 생성 보상의 앙상블을 포함한 BiCoT-GRPO를 도입하여 동일한 학습 단계 내에서 두 생성 CoT를 원활하게 최적화합니다. 우리의 추론 전략을 베이스라인 모델인 Janus-Pro에 적용함으로써, T2I-CompBench에서 13%, WISE 벤치마크에서 19%의 성능 향상을 달성했으며, 최첨단 모델인 FLUX.1을 능가하는 결과를 얻었습니다. 코드는 https://github.com/CaraJ7/T2I-R1에서 확인할 수 있습니다.
English
Recent advancements in large language models have demonstrated how
chain-of-thought (CoT) and reinforcement learning (RL) can improve performance.
However, applying such reasoning strategies to the visual generation domain
remains largely unexplored. In this paper, we present T2I-R1, a novel
reasoning-enhanced text-to-image generation model, powered by RL with a
bi-level CoT reasoning process. Specifically, we identify two levels of CoT
that can be utilized to enhance different stages of generation: (1) the
semantic-level CoT for high-level planning of the prompt and (2) the
token-level CoT for low-level pixel processing during patch-by-patch
generation. To better coordinate these two levels of CoT, we introduce
BiCoT-GRPO with an ensemble of generation rewards, which seamlessly optimizes
both generation CoTs within the same training step. By applying our reasoning
strategies to the baseline model, Janus-Pro, we achieve superior performance
with 13% improvement on T2I-CompBench and 19% improvement on the WISE
benchmark, even surpassing the state-of-the-art model FLUX.1. Code is available
at: https://github.com/CaraJ7/T2I-R1Summary
AI-Generated Summary