InterleaveThinker: Versterkende Agentische Interleaved Generatie

Samenvatting

Recente beeldgeneratoren hebben indrukwekkende fotorealistische en instructie-volgende capaciteiten laten zien in het genereren en bewerken van enkele afbeeldingen. Echter, beperkt door hun architectuur, kunnen ze geen interleaved generatie (tekst-beeldsequentie) realiseren, wat cruciale toepassingen heeft in visuele verhalen, begeleiding en belichaamde manipulatie. Zelfs de nieuwste open-source Unified Multimodal Models (UMM's) vertonen beperkte prestaties op dit gebied. In dit artikel introduceren we InterleaveThinker, de eerste multi-agentpijplijn die ontworpen is om elke bestaande beeldgenerator te voorzien van interleaved generatiecapaciteiten. Specifiek gebruiken we een planner-agent om de beeld-tekstinvoerreeks te organiseren en de beeldgenerator te instrueren over de vereiste uitvoering bij elke stap. Vervolgens introduceren we een critic-agent om de output van de generator te evalueren, afwijkingen van de geplande instructies te identificeren en de instructies te verfijnen voor hergeneratie. Om deze pijplijn te implementeren, construeren we de Interleave-Planner-SFT-80k en Interleave-Critic-SFT-112k voor een formattering-koude start. Daarna ontwikkelen we Interleave-Critic-RL-13k om de stapsgewijze instructiecorrectiecapaciteit binnen een generatietraject te versterken met GRPO. Aangezien een enkel interleaved generatietraject meer dan 25 generatoraanroepen kan omvatten, is optimalisatie van het volledige traject computationeel onpraktisch. Daarom stellen we nauwkeurigheidsbeloning en stapsgewijze beloning voor, waardoor RL met één stap het hele generatietraject effectief kan sturen. De resultaten tonen aan dat InterleaveThinker de prestaties verbetert bij verschillende beeldgeneratoren. Op interleaved generatiebenchmarks bereikt het prestaties vergelijkbaar met Nano Banana en GPT-5. Verrassend genoeg verbetert het ook aanzienlijk het basismodel op redeneer-gebaseerde benchmarks; bijvoorbeeld op 4-staps FLUX.2-klein zien we substantiële winst op WISE en RISE.

English

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.