Entrelazamiento de Razonamiento para una Mejor Generación de Texto a Imagen
Interleaving Reasoning for Better Text-to-Image Generation
September 8, 2025
Autores: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
cs.AI
Resumen
Los modelos unificados de comprensión y generación multimodal han logrado recientemente mejoras significativas en la capacidad de generación de imágenes, aunque persiste una brecha considerable en el seguimiento de instrucciones y la preservación de detalles en comparación con sistemas que acoplan estrechamente la comprensión con la generación, como GPT-4o. Motivados por los avances recientes en el razonamiento intercalado, exploramos si dicho razonamiento puede mejorar aún más la generación de texto a imagen (T2I). Introducimos Interleaving Reasoning Generation (IRG), un marco que alterna entre el pensamiento basado en texto y la síntesis de imágenes: el modelo primero produce un pensamiento basado en texto para guiar una imagen inicial, luego reflexiona sobre el resultado para refinar detalles finos, calidad visual y estética, preservando la semántica. Para entrenar IRG de manera efectiva, proponemos Interleaving Reasoning Generation Learning (IRGL), que se enfoca en dos subobjetivos: (1) fortalecer la etapa inicial de pensar y generar para establecer el contenido central y la calidad base, y (2) permitir una reflexión textual de alta calidad y la implementación fiel de esos refinamientos en una imagen posterior. Curiosamente, organizamos IRGL-300K, un conjunto de datos estructurado en seis modos de aprendizaje descompuestos que cubren conjuntamente el aprendizaje del pensamiento basado en texto y las trayectorias completas de pensamiento-imagen. Partiendo de un modelo base unificado que emite naturalmente salidas intercaladas de texto e imagen, nuestro entrenamiento en dos etapas primero construye un pensamiento y reflexión robustos, luego ajusta eficientemente la canalización IRG en los datos de trayectorias completas de pensamiento-imagen. Experimentos extensos muestran un rendimiento de vanguardia, obteniendo ganancias absolutas de 5-10 puntos en GenEval, WISE, TIIF, GenAI-Bench y OneIG-EN, junto con mejoras sustanciales en la calidad visual y la fidelidad de detalles finos. El código, los pesos del modelo y los conjuntos de datos se publicarán en: https://github.com/Osilly/Interleaving-Reasoning-Generation.
English
Unified multimodal understanding and generation models recently have achieve
significant improvement in image generation capability, yet a large gap remains
in instruction following and detail preservation compared to systems that
tightly couple comprehension with generation such as GPT-4o. Motivated by
recent advances in interleaving reasoning, we explore whether such reasoning
can further improve Text-to-Image (T2I) generation. We introduce Interleaving
Reasoning Generation (IRG), a framework that alternates between text-based
thinking and image synthesis: the model first produces a text-based thinking to
guide an initial image, then reflects on the result to refine fine-grained
details, visual quality, and aesthetics while preserving semantics. To train
IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL),
which targets two sub-goals: (1) strengthening the initial think-and-generate
stage to establish core content and base quality, and (2) enabling high-quality
textual reflection and faithful implementation of those refinements in a
subsequent image. We curate IRGL-300K, a dataset organized into six decomposed
learning modes that jointly cover learning text-based thinking, and full
thinking-image trajectories. Starting from a unified foundation model that
natively emits interleaved text-image outputs, our two-stage training first
builds robust thinking and reflection, then efficiently tunes the IRG pipeline
in the full thinking-image trajectory data. Extensive experiments show SoTA
performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF,
GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality
and fine-grained fidelity. The code, model weights and datasets will be
released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .