Interlacciamento del Ragionamento per una Migliore Generazione di Testo-Immagine
Interleaving Reasoning for Better Text-to-Image Generation
September 8, 2025
Autori: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
cs.AI
Abstract
I modelli unificati di comprensione e generazione multimodale hanno recentemente ottenuto miglioramenti significativi nella capacità di generazione di immagini, ma rimane un ampio divario nel seguire le istruzioni e nel preservare i dettagli rispetto a sistemi che accoppiano strettamente la comprensione con la generazione, come GPT-4o. Motivati dai recenti progressi nel ragionamento intercalato, esploriamo se tale ragionamento possa ulteriormente migliorare la generazione da testo a immagine (Text-to-Image, T2I). Introduciamo Interleaving Reasoning Generation (IRG), un framework che alterna il pensiero basato su testo e la sintesi di immagini: il modello produce prima un pensiero basato su testo per guidare un'immagine iniziale, poi riflette sul risultato per affinare dettagli granulari, qualità visiva ed estetica, preservando la semantica. Per addestrare efficacemente IRG, proponiamo Interleaving Reasoning Generation Learning (IRGL), che si concentra su due sotto-obiettivi: (1) rafforzare la fase iniziale di pensiero e generazione per stabilire il contenuto principale e la qualità di base, e (2) abilitare una riflessione testuale di alta qualità e un'implementazione fedele di tali perfezionamenti in un'immagine successiva. Curiamo IRGL-300K, un dataset organizzato in sei modalità di apprendimento scomposte che coprono congiuntamente l'apprendimento del pensiero basato su testo e le traiettorie complete di pensiero-immagine. Partendo da un modello di base unificato che emette naturalmente output intercalati testo-immagine, il nostro addestramento in due fasi costruisce prima un pensiero e una riflessione robusti, poi sintonizza efficientemente la pipeline IRG sui dati delle traiettorie complete di pensiero-immagine. Esperimenti estensivi mostrano prestazioni all'avanguardia, con guadagni assoluti di 5-10 punti su GenEval, WISE, TIIF, GenAI-Bench e OneIG-EN, insieme a sostanziali miglioramenti nella qualità visiva e nella fedeltà dei dettagli granulari. Il codice, i pesi del modello e i dataset saranno rilasciati su: https://github.com/Osilly/Interleaving-Reasoning-Generation.
English
Unified multimodal understanding and generation models recently have achieve
significant improvement in image generation capability, yet a large gap remains
in instruction following and detail preservation compared to systems that
tightly couple comprehension with generation such as GPT-4o. Motivated by
recent advances in interleaving reasoning, we explore whether such reasoning
can further improve Text-to-Image (T2I) generation. We introduce Interleaving
Reasoning Generation (IRG), a framework that alternates between text-based
thinking and image synthesis: the model first produces a text-based thinking to
guide an initial image, then reflects on the result to refine fine-grained
details, visual quality, and aesthetics while preserving semantics. To train
IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL),
which targets two sub-goals: (1) strengthening the initial think-and-generate
stage to establish core content and base quality, and (2) enabling high-quality
textual reflection and faithful implementation of those refinements in a
subsequent image. We curate IRGL-300K, a dataset organized into six decomposed
learning modes that jointly cover learning text-based thinking, and full
thinking-image trajectories. Starting from a unified foundation model that
natively emits interleaved text-image outputs, our two-stage training first
builds robust thinking and reflection, then efficiently tunes the IRG pipeline
in the full thinking-image trajectory data. Extensive experiments show SoTA
performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF,
GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality
and fine-grained fidelity. The code, model weights and datasets will be
released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .