Intercalage de raisonnement pour une meilleure génération d'images à partir de texte
Interleaving Reasoning for Better Text-to-Image Generation
September 8, 2025
papers.authors: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
cs.AI
papers.abstract
Les modèles unifiés de compréhension et de génération multimodaux ont récemment enregistré des améliorations significatives dans la capacité de génération d'images. Cependant, un écart important persiste en matière de suivi des instructions et de préservation des détails par rapport à des systèmes qui intègrent étroitement la compréhension et la génération, tels que GPT-4o. Motivés par les avancées récentes dans le raisonnement entrelacé, nous explorons si un tel raisonnement peut encore améliorer la génération de texte à image (Text-to-Image, T2I). Nous introduisons le cadre de Génération par Raisonnement Entrelacé (Interleaving Reasoning Generation, IRG), qui alterne entre la réflexion textuelle et la synthèse d'images : le modèle produit d'abord une réflexion textuelle pour guider une image initiale, puis réfléchit au résultat pour affiner les détails fins, la qualité visuelle et l'esthétique tout en préservant la sémantique. Pour entraîner efficacement IRG, nous proposons l'Apprentissage de Génération par Raisonnement Entrelacé (Interleaving Reasoning Generation Learning, IRGL), qui cible deux sous-objectifs : (1) renforcer l'étape initiale de réflexion et de génération pour établir le contenu principal et la qualité de base, et (2) permettre une réflexion textuelle de haute qualité et une mise en œuvre fidèle de ces améliorations dans une image ultérieure. Nous avons constitué IRGL-300K, un ensemble de données organisé en six modes d'apprentissage décomposés qui couvrent conjointement l'apprentissage de la réflexion textuelle et les trajectoires complètes de réflexion-image. Partant d'un modèle de base unifié qui émet naturellement des sorties texte-image entrelacées, notre entraînement en deux étapes construit d'abord une réflexion et une rétroaction robustes, puis affine efficacement le pipeline IRG sur les données de trajectoires complètes de réflexion-image. Des expériences approfondies montrent des performances de pointe, avec des gains absolus de 5 à 10 points sur GenEval, WISE, TIIF, GenAI-Bench et OneIG-EN, ainsi que des améliorations substantielles en qualité visuelle et en fidélité des détails fins. Le code, les poids du modèle et les ensembles de données seront publiés sur : https://github.com/Osilly/Interleaving-Reasoning-Generation.
English
Unified multimodal understanding and generation models recently have achieve
significant improvement in image generation capability, yet a large gap remains
in instruction following and detail preservation compared to systems that
tightly couple comprehension with generation such as GPT-4o. Motivated by
recent advances in interleaving reasoning, we explore whether such reasoning
can further improve Text-to-Image (T2I) generation. We introduce Interleaving
Reasoning Generation (IRG), a framework that alternates between text-based
thinking and image synthesis: the model first produces a text-based thinking to
guide an initial image, then reflects on the result to refine fine-grained
details, visual quality, and aesthetics while preserving semantics. To train
IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL),
which targets two sub-goals: (1) strengthening the initial think-and-generate
stage to establish core content and base quality, and (2) enabling high-quality
textual reflection and faithful implementation of those refinements in a
subsequent image. We curate IRGL-300K, a dataset organized into six decomposed
learning modes that jointly cover learning text-based thinking, and full
thinking-image trajectories. Starting from a unified foundation model that
natively emits interleaved text-image outputs, our two-stage training first
builds robust thinking and reflection, then efficiently tunes the IRG pipeline
in the full thinking-image trajectory data. Extensive experiments show SoTA
performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF,
GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality
and fine-grained fidelity. The code, model weights and datasets will be
released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .