Entrelazamiento de Razonamiento para una Mejor Generación de Texto a Imagen

Resumen

Los modelos unificados de comprensión y generación multimodal han logrado recientemente mejoras significativas en la capacidad de generación de imágenes, aunque persiste una brecha considerable en el seguimiento de instrucciones y la preservación de detalles en comparación con sistemas que acoplan estrechamente la comprensión con la generación, como GPT-4o. Motivados por los avances recientes en el razonamiento intercalado, exploramos si dicho razonamiento puede mejorar aún más la generación de texto a imagen (T2I). Introducimos Interleaving Reasoning Generation (IRG), un marco que alterna entre el pensamiento basado en texto y la síntesis de imágenes: el modelo primero produce un pensamiento basado en texto para guiar una imagen inicial, luego reflexiona sobre el resultado para refinar detalles finos, calidad visual y estética, preservando la semántica. Para entrenar IRG de manera efectiva, proponemos Interleaving Reasoning Generation Learning (IRGL), que se enfoca en dos subobjetivos: (1) fortalecer la etapa inicial de pensar y generar para establecer el contenido central y la calidad base, y (2) permitir una reflexión textual de alta calidad y la implementación fiel de esos refinamientos en una imagen posterior. Curiosamente, organizamos IRGL-300K, un conjunto de datos estructurado en seis modos de aprendizaje descompuestos que cubren conjuntamente el aprendizaje del pensamiento basado en texto y las trayectorias completas de pensamiento-imagen. Partiendo de un modelo base unificado que emite naturalmente salidas intercaladas de texto e imagen, nuestro entrenamiento en dos etapas primero construye un pensamiento y reflexión robustos, luego ajusta eficientemente la canalización IRG en los datos de trayectorias completas de pensamiento-imagen. Experimentos extensos muestran un rendimiento de vanguardia, obteniendo ganancias absolutas de 5-10 puntos en GenEval, WISE, TIIF, GenAI-Bench y OneIG-EN, junto con mejoras sustanciales en la calidad visual y la fidelidad de detalles finos. El código, los pesos del modelo y los conjuntos de datos se publicarán en: https://github.com/Osilly/Interleaving-Reasoning-Generation.

English

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework that alternates between text-based thinking and image synthesis: the model first produces a text-based thinking to guide an initial image, then reflects on the result to refine fine-grained details, visual quality, and aesthetics while preserving semantics. To train IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL), which targets two sub-goals: (1) strengthening the initial think-and-generate stage to establish core content and base quality, and (2) enabling high-quality textual reflection and faithful implementation of those refinements in a subsequent image. We curate IRGL-300K, a dataset organized into six decomposed learning modes that jointly cover learning text-based thinking, and full thinking-image trajectories. Starting from a unified foundation model that natively emits interleaved text-image outputs, our two-stage training first builds robust thinking and reflection, then efficiently tunes the IRG pipeline in the full thinking-image trajectory data. Extensive experiments show SoTA performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF, GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality and fine-grained fidelity. The code, model weights and datasets will be released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .

Entrelazamiento de Razonamiento para una Mejor Generación de Texto a Imagen

Interleaving Reasoning for Better Text-to-Image Generation

Resumen

Support