Interleavend Redeneren voor Betere Tekst-naar-Beeld Generatie
Interleaving Reasoning for Better Text-to-Image Generation
September 8, 2025
Auteurs: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
cs.AI
Samenvatting
Unified multimodale begrips- en generatiemodellen hebben recentelijk aanzienlijke vooruitgang geboekt in beeldgeneratiecapaciteit, maar er blijft een grote kloof bestaan in instructieopvolging en detailbehoud in vergelijking met systemen die begrip en generatie nauw koppelen, zoals GPT-4o. Gemotiveerd door recente ontwikkelingen in interleaving reasoning, onderzoeken we of dergelijke redenering de Text-to-Image (T2I)-generatie verder kan verbeteren. We introduceren Interleaving Reasoning Generation (IRG), een raamwerk dat afwisselt tussen tekstgebaseerd denken en beeld-synthese: het model produceert eerst een tekstgebaseerde denkstap om een initieel beeld te begeleiden, reflecteert vervolgens op het resultaat om fijnmazige details, visuele kwaliteit en esthetiek te verfijnen, terwijl de semantiek behouden blijft. Om IRG effectief te trainen, stellen we Interleaving Reasoning Generation Learning (IRGL) voor, dat zich richt op twee subdoelen: (1) het versterken van de initiële denk-en-genereer fase om kerninhoud en basiskwaliteit vast te stellen, en (2) het mogelijk maken van hoogwaardige tekstuele reflectie en getrouwe implementatie van die verfijningen in een volgend beeld. We hebben IRGL-300K samengesteld, een dataset georganiseerd in zes ontbonden leerwijzen die gezamenlijk het leren van tekstgebaseerd denken en volledige denken-beeld trajecten omvatten. Uitgaande van een unified foundation model dat van nature interleaved tekst-beeld uitvoer produceert, bouwt onze tweefasige training eerst robuust denken en reflectie op, en stemt vervolgens efficiënt de IRG-pipeline af op de volledige denken-beeld trajectdata. Uitgebreide experimenten tonen state-of-the-art prestaties, met absolute winsten van 5-10 punten op GenEval, WISE, TIIF, GenAI-Bench en OneIG-EN, naast aanzienlijke verbeteringen in visuele kwaliteit en fijnmazige trouw. De code, modelgewichten en datasets zullen worden vrijgegeven op: https://github.com/Osilly/Interleaving-Reasoning-Generation.
English
Unified multimodal understanding and generation models recently have achieve
significant improvement in image generation capability, yet a large gap remains
in instruction following and detail preservation compared to systems that
tightly couple comprehension with generation such as GPT-4o. Motivated by
recent advances in interleaving reasoning, we explore whether such reasoning
can further improve Text-to-Image (T2I) generation. We introduce Interleaving
Reasoning Generation (IRG), a framework that alternates between text-based
thinking and image synthesis: the model first produces a text-based thinking to
guide an initial image, then reflects on the result to refine fine-grained
details, visual quality, and aesthetics while preserving semantics. To train
IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL),
which targets two sub-goals: (1) strengthening the initial think-and-generate
stage to establish core content and base quality, and (2) enabling high-quality
textual reflection and faithful implementation of those refinements in a
subsequent image. We curate IRGL-300K, a dataset organized into six decomposed
learning modes that jointly cover learning text-based thinking, and full
thinking-image trajectories. Starting from a unified foundation model that
natively emits interleaved text-image outputs, our two-stage training first
builds robust thinking and reflection, then efficiently tunes the IRG pipeline
in the full thinking-image trajectory data. Extensive experiments show SoTA
performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF,
GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality
and fine-grained fidelity. The code, model weights and datasets will be
released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .