InterleaveThinker: Подкрепление агентной перемежающейся генерации

Аннотация

Современные генераторы изображений демонстрируют впечатляющий фотореализм и способность следовать инструкциям при генерации и редактировании отдельных изображений. Однако из-за ограничений архитектуры они не способны выполнять перемежающуюся генерацию (последовательность текст-изображение), которая имеет решающее значение для визуальных повествований, инструкций и воплощенных манипуляций. Даже новейшие открытые единые мультимодальные модели (UMM) показывают ограниченные результаты в этой области. В данной статье мы представляем InterleaveThinker — первый мультиагентный конвейер, предназначенный для наделения любого существующего генератора изображений способностью к перемежающейся генерации. В частности, мы используем агент-планировщик для организации входной последовательности изображение-текст, указывая генератору изображений, что требуется выполнить на каждом шаге. Затем мы вводим агент-критик, который оценивает выходные данные генератора, выявляет образцы, отклоняющиеся от запланированных инструкций, и уточняет инструкции для повторной генерации. Для реализации этого конвейера мы создали наборы данных Interleave-Planner-SFT-80k и Interleave-Critic-SFT-112k для форматного холодного старта. Далее мы разработали Interleave-Critic-RL-13k для усиления способности поэтапно корректировать инструкции в пределах траектории генерации с использованием GRPO. Поскольку одна траектория перемежающейся генерации может включать более 25 вызовов генератора, оптимизировать всю траекторию вычислительно нецелесообразно. Поэтому мы предлагаем награду за точность и пошаговую награду, что позволяет эффективно управлять всей траекторией генерации с помощью одношагового обучения с подкреплением. Результаты показывают, что InterleaveThinker улучшает производительность различных генераторов изображений. На тестах перемежающейся генерации он достигает производительности, сопоставимой с Nano Banana и GPT-5. Удивительно, но он также значительно улучшает базовую модель на задачах, основанных на рассуждении; например, на 4-шаговом FLUX.2-klein мы наблюдаем существенные улучшения на наборах WISE и RISE.

English

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.