ChatPaper.aiChatPaper

Interleavende Argumentation für eine verbesserte Text-zu-Bild-Generierung

Interleaving Reasoning for Better Text-to-Image Generation

September 8, 2025
papers.authors: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
cs.AI

papers.abstract

Einheitliche multimodale Verständnis- und Generierungsmodelle haben in letzter Zeit erhebliche Fortschritte in der Bildgenerierungsfähigkeit erzielt, doch besteht weiterhin eine große Lücke in der Befolgung von Anweisungen und der Detailtreue im Vergleich zu Systemen, die Verständnis und Generierung eng miteinander verknüpfen, wie beispielsweise GPT-4o. Angeregt durch jüngste Fortschritte im Bereich des verschachtelten Denkens, untersuchen wir, ob ein solches Denken die Text-zu-Bild (T2I)-Generierung weiter verbessern kann. Wir stellen Interleaving Reasoning Generation (IRG) vor, ein Framework, das zwischen textbasiertem Denken und Bildsynthese abwechselt: Das Modell erzeugt zunächst ein textbasiertes Denken, um ein initiales Bild zu leiten, reflektiert dann das Ergebnis, um feinkörnige Details, visuelle Qualität und Ästhetik zu verfeinern, während die Semantik erhalten bleibt. Um IRG effektiv zu trainieren, schlagen wir Interleaving Reasoning Generation Learning (IRGL) vor, das zwei Teilziele verfolgt: (1) die Stärkung der initialen Denk-und-Generieren-Phase, um Kerninhalte und Basisqualität zu etablieren, und (2) die Ermöglichung hochwertiger textueller Reflexion und treuer Umsetzung dieser Verfeinerungen in einem nachfolgenden Bild. Wir haben IRGL-300K kuratiert, einen Datensatz, der in sechs dekomponierte Lernmodi organisiert ist, die gemeinsam das Lernen von textbasiertem Denken und vollständigen Denk-Bild-Trajektorien abdecken. Ausgehend von einem einheitlichen Basismodell, das nativ verschachtelte Text-Bild-Ausgaben erzeugt, baut unser zweistufiges Training zunächst robustes Denken und Reflektieren auf und optimiert dann effizient die IRG-Pipeline in den vollständigen Denk-Bild-Trajektorien-Daten. Umfangreiche Experimente zeigen Spitzenleistungen, die absolute Gewinne von 5-10 Punkten auf GenEval, WISE, TIIF, GenAI-Bench und OneIG-EN erzielen, zusammen mit erheblichen Verbesserungen in der visuellen Qualität und feinkörnigen Detailtreue. Der Code, die Modellgewichte und Datensätze werden unter folgendem Link veröffentlicht: https://github.com/Osilly/Interleaving-Reasoning-Generation.
English
Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework that alternates between text-based thinking and image synthesis: the model first produces a text-based thinking to guide an initial image, then reflects on the result to refine fine-grained details, visual quality, and aesthetics while preserving semantics. To train IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL), which targets two sub-goals: (1) strengthening the initial think-and-generate stage to establish core content and base quality, and (2) enabling high-quality textual reflection and faithful implementation of those refinements in a subsequent image. We curate IRGL-300K, a dataset organized into six decomposed learning modes that jointly cover learning text-based thinking, and full thinking-image trajectories. Starting from a unified foundation model that natively emits interleaved text-image outputs, our two-stage training first builds robust thinking and reflection, then efficiently tunes the IRG pipeline in the full thinking-image trajectory data. Extensive experiments show SoTA performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF, GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality and fine-grained fidelity. The code, model weights and datasets will be released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .
PDF132September 9, 2025