ChatPaper.aiChatPaper

Intercalando Raciocínio para Melhor Geração de Texto para Imagem

Interleaving Reasoning for Better Text-to-Image Generation

September 8, 2025
Autores: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
cs.AI

Resumo

Modelos unificados de compreensão e geração multimodal recentemente alcançaram melhorias significativas na capacidade de geração de imagens, mas ainda há uma grande lacuna no seguimento de instruções e na preservação de detalhes em comparação com sistemas que acoplam fortemente compreensão e geração, como o GPT-4o. Motivados pelos avanços recentes no raciocínio intercalado, exploramos se tal raciocínio pode melhorar ainda mais a geração de Texto para Imagem (T2I). Introduzimos o Raciocínio Intercalado de Geração (IRG), uma estrutura que alterna entre o pensamento baseado em texto e a síntese de imagens: o modelo primeiro produz um pensamento baseado em texto para guiar uma imagem inicial, depois reflete sobre o resultado para refinar detalhes de granularidade fina, qualidade visual e estética, preservando a semântica. Para treinar o IRG de forma eficaz, propomos o Aprendizado de Raciocínio Intercalado de Geração (IRGL), que visa dois subobjetivos: (1) fortalecer o estágio inicial de pensar e gerar para estabelecer o conteúdo central e a qualidade base, e (2) permitir uma reflexão textual de alta qualidade e a implementação fiel desses refinamentos em uma imagem subsequente. Criamos o IRGL-300K, um conjunto de dados organizado em seis modos de aprendizado decompostos que cobrem conjuntamente o aprendizado do pensamento baseado em texto e trajetórias completas de pensamento-imagem. Partindo de um modelo de base unificado que emite naturalmente saídas intercaladas de texto e imagem, nosso treinamento em duas etapas primeiro constrói um pensamento e reflexão robustos, depois ajusta eficientemente o pipeline IRG nos dados de trajetória completa de pensamento-imagem. Experimentos extensivos mostram desempenho de ponta, com ganhos absolutos de 5-10 pontos no GenEval, WISE, TIIF, GenAI-Bench e OneIG-EN, além de melhorias substanciais na qualidade visual e fidelidade de detalhes finos. O código, pesos do modelo e conjuntos de dados serão liberados em: https://github.com/Osilly/Interleaving-Reasoning-Generation.
English
Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework that alternates between text-based thinking and image synthesis: the model first produces a text-based thinking to guide an initial image, then reflects on the result to refine fine-grained details, visual quality, and aesthetics while preserving semantics. To train IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL), which targets two sub-goals: (1) strengthening the initial think-and-generate stage to establish core content and base quality, and (2) enabling high-quality textual reflection and faithful implementation of those refinements in a subsequent image. We curate IRGL-300K, a dataset organized into six decomposed learning modes that jointly cover learning text-based thinking, and full thinking-image trajectories. Starting from a unified foundation model that natively emits interleaved text-image outputs, our two-stage training first builds robust thinking and reflection, then efficiently tunes the IRG pipeline in the full thinking-image trajectory data. Extensive experiments show SoTA performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF, GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality and fine-grained fidelity. The code, model weights and datasets will be released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .
PDF132September 9, 2025