T2I-R1 : Renforcement de la génération d'images par collaboration sémantique et token-level CoT
T2I-R1: Reinforcing Image Generation with Collaborative Semantic-level and Token-level CoT
May 1, 2025
Auteurs: Dongzhi Jiang, Ziyu Guo, Renrui Zhang, Zhuofan Zong, Hao Li, Le Zhuo, Shilin Yan, Pheng-Ann Heng, Hongsheng Li
cs.AI
Résumé
Les récentes avancées dans les modèles de langage de grande taille ont démontré comment le raisonnement en chaîne de pensée (CoT) et l'apprentissage par renforcement (RL) peuvent améliorer les performances. Cependant, l'application de telles stratégies de raisonnement au domaine de la génération visuelle reste largement inexplorée. Dans cet article, nous présentons T2I-R1, un nouveau modèle de génération texte-à-image amélioré par le raisonnement, alimenté par le RL avec un processus de raisonnement CoT à deux niveaux. Plus précisément, nous identifions deux niveaux de CoT qui peuvent être utilisés pour améliorer différentes étapes de la génération : (1) le CoT au niveau sémantique pour la planification de haut niveau de l'invite et (2) le CoT au niveau des tokens pour le traitement de bas niveau des pixels lors de la génération patch par patch. Pour mieux coordonner ces deux niveaux de CoT, nous introduisons BiCoT-GRPO avec un ensemble de récompenses de génération, qui optimise de manière transparente les deux CoT de génération au cours de la même étape d'entraînement. En appliquant nos stratégies de raisonnement au modèle de base, Janus-Pro, nous obtenons des performances supérieures avec une amélioration de 13 % sur T2I-CompBench et de 19 % sur le benchmark WISE, dépassant même le modèle de pointe FLUX.1. Le code est disponible à l'adresse : https://github.com/CaraJ7/T2I-R1
English
Recent advancements in large language models have demonstrated how
chain-of-thought (CoT) and reinforcement learning (RL) can improve performance.
However, applying such reasoning strategies to the visual generation domain
remains largely unexplored. In this paper, we present T2I-R1, a novel
reasoning-enhanced text-to-image generation model, powered by RL with a
bi-level CoT reasoning process. Specifically, we identify two levels of CoT
that can be utilized to enhance different stages of generation: (1) the
semantic-level CoT for high-level planning of the prompt and (2) the
token-level CoT for low-level pixel processing during patch-by-patch
generation. To better coordinate these two levels of CoT, we introduce
BiCoT-GRPO with an ensemble of generation rewards, which seamlessly optimizes
both generation CoTs within the same training step. By applying our reasoning
strategies to the baseline model, Janus-Pro, we achieve superior performance
with 13% improvement on T2I-CompBench and 19% improvement on the WISE
benchmark, even surpassing the state-of-the-art model FLUX.1. Code is available
at: https://github.com/CaraJ7/T2I-R1Summary
AI-Generated Summary