Переплетение рассуждений для улучшения генерации изображений по тексту

Аннотация

Унифицированные мультимодальные модели понимания и генерации в последнее время достигли значительного прогресса в способности генерации изображений, однако сохраняется существенный разрыв в следовании инструкциям и сохранении деталей по сравнению с системами, которые тесно связывают понимание с генерацией, такими как GPT-4o. Вдохновленные недавними достижениями в чередующемся рассуждении, мы исследуем, может ли такое рассуждение дополнительно улучшить генерацию "текст-в-изображение" (T2I). Мы представляем Interleaving Reasoning Generation (IRG) — фреймворк, который чередует текстовое мышление и синтез изображений: модель сначала создает текстовое рассуждение для руководства начальным изображением, затем анализирует результат для уточнения мелких деталей, визуального качества и эстетики, сохраняя при этом семантику. Для эффективного обучения IRG мы предлагаем Interleaving Reasoning Generation Learning (IRGL), который нацелен на две подзадачи: (1) укрепление начального этапа "думай и генерируй" для установления основного содержания и базового качества, и (2) обеспечение высококачественного текстового анализа и точного внедрения этих уточнений в последующее изображение. Мы создали IRGL-300K — набор данных, организованный в шесть декомпозированных режимов обучения, которые совместно охватывают обучение текстовому мышлению и полным траекториям "мышление-изображение". Начиная с унифицированной базовой модели, которая изначально генерирует чередующиеся текстово-изобразительные выходы, наш двухэтапный процесс обучения сначала формирует устойчивое мышление и анализ, а затем эффективно настраивает конвейер IRG на данных полных траекторий "мышление-изображение". Экстенсивные эксперименты демонстрируют состояние искусства, показывая абсолютный прирост на 5-10 баллов на GenEval, WISE, TIIF, GenAI-Bench и OneIG-EN, а также значительные улучшения в визуальном качестве и детализации. Код, веса модели и наборы данных будут опубликованы по адресу: https://github.com/Osilly/Interleaving-Reasoning-Generation.

English

Unified multimodal understanding and generation models recently have achieve significant improvement in image generation capability, yet a large gap remains in instruction following and detail preservation compared to systems that tightly couple comprehension with generation such as GPT-4o. Motivated by recent advances in interleaving reasoning, we explore whether such reasoning can further improve Text-to-Image (T2I) generation. We introduce Interleaving Reasoning Generation (IRG), a framework that alternates between text-based thinking and image synthesis: the model first produces a text-based thinking to guide an initial image, then reflects on the result to refine fine-grained details, visual quality, and aesthetics while preserving semantics. To train IRG effectively, we propose Interleaving Reasoning Generation Learning (IRGL), which targets two sub-goals: (1) strengthening the initial think-and-generate stage to establish core content and base quality, and (2) enabling high-quality textual reflection and faithful implementation of those refinements in a subsequent image. We curate IRGL-300K, a dataset organized into six decomposed learning modes that jointly cover learning text-based thinking, and full thinking-image trajectories. Starting from a unified foundation model that natively emits interleaved text-image outputs, our two-stage training first builds robust thinking and reflection, then efficiently tunes the IRG pipeline in the full thinking-image trajectory data. Extensive experiments show SoTA performance, yielding absolute gains of 5-10 points on GenEval, WISE, TIIF, GenAI-Bench, and OneIG-EN, alongside substantial improvements in visual quality and fine-grained fidelity. The code, model weights and datasets will be released in: https://github.com/Osilly/Interleaving-Reasoning-Generation .

Переплетение рассуждений для улучшения генерации изображений по тексту

Interleaving Reasoning for Better Text-to-Image Generation

Аннотация

Support