InterleaveThinker: Reforçando a Geração Intercalada Agêntica

Resumo

Geradores de imagem recentes demonstraram fotorrealismo impressionante e capacidade de seguir instruções na geração e edição de imagens individuais. No entanto, limitados por suas arquiteturas, eles não conseguem realizar geração intercalada (sequência texto-imagem), que tem aplicações cruciais em narrativas visuais, orientação e manipulação incorporada. Mesmo os mais recentes Modelos Multimodais Unificados (UMMs) de código aberto apresentam desempenho limitado nesse aspecto. Neste artigo, apresentamos o InterleaveThinker, o primeiro pipeline multiagente projetado para dotar qualquer gerador de imagem existente com capacidades de geração intercalada. Especificamente, empregamos um agente planejador para organizar a sequência de entrada imagem-texto, instruindo o gerador de imagem sobre a execução necessária em cada etapa. Em seguida, introduzimos um agente crítico para avaliar as saídas do gerador, identificar amostras que se desviam das instruções planejadas e refinar as instruções para regeneração. Para implementar esse pipeline, construímos os conjuntos Interleave-Planner-SFT-80k e Interleave-Critic-SFT-112k para realizar uma inicialização a frio de formato. Depois, desenvolvemos o Interleave-Critic-RL-13k para reforçar a capacidade de correção de instruções passo a passo dentro de uma trajetória de geração, utilizando GRPO. Como uma única trajetória de geração intercalada pode envolver mais de 25 chamadas ao gerador, otimizar toda a trajetória é computacionalmente inviável. Portanto, propomos recompensa por precisão e recompensa passo a passo, permitindo que o RL de etapa única guie efetivamente toda a trajetória de geração. Os resultados mostram que o InterleaveThinker melhora o desempenho em vários geradores de imagem. Em benchmarks de geração intercalada, alcança desempenho comparável ao Nano Banana e ao GPT-5. Surpreendentemente, também aprimora significativamente o modelo base em benchmarks baseados em raciocínio; por exemplo, no FLUX.2-klein de 4 etapas, observamos ganhos substanciais no WISE e no RISE.

English

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.