Переплетение рассуждений для улучшения генерации изображений по тексту
Interleaving Reasoning for Better Text-to-Image Generation
September 8, 2025
Авторы: Wenxuan Huang, Shuang Chen, Zheyong Xie, Shaosheng Cao, Shixiang Tang, Yufan Shen, Qingyu Yin, Wenbo Hu, Xiaoman Wang, Yuntian Tang, Junbo Qiao, Yue Guo, Yao Hu, Zhenfei Yin, Philip Torr, Yu Cheng, Wanli Ouyang, Shaohui Lin
cs.AI
Аннотация
Унифицированные мультимодальные модели понимания и генерации в последнее время достигли значительного прогресса в способности генерации изображений, однако сохраняется существенный разрыв в следовании инструкциям и сохранении деталей по сравнению с системами, которые тесно связывают понимание с генерацией, такими как GPT-4o. Вдохновленные недавними достижениями в чередующемся рассуждении, мы исследуем, может ли такое рассуждение дополнительно улучшить генерацию "текст-в-изображение" (T2I). Мы представляем Interleaving Reasoning Generation (IRG) — фреймворк, который чередует текстовое мышление и синтез изображений: модель сначала создает текстовое рассуждение для руководства начальным изображением, затем анализирует результат для уточнения мелких деталей, визуального качества и эстетики, сохраняя при этом семантику. Для эффективного обучения IRG мы предлагаем Interleaving Reasoning Generation Learning (IRGL), который нацелен на две подзадачи: (1) укрепление начального этапа "думай и генерируй" для установления основного содержания и базового качества, и (2) обеспечение высококачественного текстового анализа и точного внедрения этих уточнений в последующее изображение. Мы создали IRGL-300K — набор данных, организованный в шесть декомпозированных режимов обучения, которые совместно охватывают обучение текстовому мышлению и полным траекториям "мышление-изображение". Начиная с унифицированной базовой модели, которая изначально генерирует чередующиеся текстово-изобразительные выходы, наш двухэтапный процесс обучения сначала формирует устойчивое мышление и анализ, а затем эффективно настраивает конвейер IRG на данных полных траекторий "мышление-изображение". Экстенсивные эксперименты демонстрируют состояние искусства, показывая абсолютный прирост на 5-10 баллов на GenEval, WISE, TIIF, GenAI-Bench и OneIG-EN, а также значительные улучшения в визуальном качестве и детализации. Код, веса модели и наборы данных будут опубликованы по адресу: https://github.com/Osilly/Interleaving-Reasoning-Generation.
English
Unified multimodal understanding and generation models recently have achieve
significant improvement in image generation capability, yet a large gap remains
in instruction following and detail preservation compared to systems that
tightly couple comprehension with generation such as GPT-4o. Motivated by
recent advances in interleaving reasoning, we explore whether such reasoning
can further improve Text-to-Image (T2I) generation. We introduce Interleaving
Reasoning Generation (IRG), a framework that alternates between text-based
thinking and image synthesis: the model first produces a text-based thinking to
guide an initial image, then reflects on the result to refine fine-grained
details, visual quality, and aesthetics while preserving semantics. To train
IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL),
which targets two sub-goals: (1) strengthening the initial think-and-generate
stage to establish core content and base quality, and (2) enabling high-quality
textual reflection and faithful implementation of those refinements in a
subsequent image. We curate IRGL-300K, a dataset organized into six decomposed
learning modes that jointly cover learning text-based thinking, and full
thinking-image trajectories. Starting from a unified foundation model that
natively emits interleaved text-image outputs, our two-stage training first
builds robust thinking and reflection, then efficiently tunes the IRG pipeline
in the full thinking-image trajectory data. Extensive experiments show SoTA
performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF,
GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality
and fine-grained fidelity. The code, model weights and datasets will be
released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .