InterleaveThinker : Renforcement de la génération entrelacée agentique

Résumé

Les générateurs d'images récents ont démontré un photoréalisme impressionnant et une capacité à suivre des instructions dans la génération et l'édition d'images uniques. Cependant, en raison des contraintes de leurs architectures, ils ne parviennent pas à réaliser une génération entrelacée (séquence texte-image), pourtant cruciale dans les applications de récits visuels, de guidage et de manipulation incarnée. Même les derniers modèles multimodaux unifiés (UMM) open source affichent des performances limitées à cet égard. Dans cet article, nous présentons InterleaveThinker, le premier pipeline multi-agent conçu pour doter tout générateur d'images existant de capacités de génération entrelacée. Plus précisément, nous utilisons un agent planificateur pour organiser la séquence d'entrée image-texte, en indiquant au générateur d'images les opérations à exécuter à chaque étape. Ensuite, nous introduisons un agent critique pour évaluer les sorties du générateur, identifier les échantillons qui s'écartent des instructions planifiées et affiner les instructions pour une nouvelle génération. Pour mettre en œuvre ce pipeline, nous construisons les ensembles Interleave-Planner-SFT-80k et Interleave-Critic-SFT-112k afin d'effectuer un démarrage à froid du format. Puis nous développons Interleave-Critic-RL-13k pour renforcer la capacité de correction d'instructions par étapes au sein d'une trajectoire de génération à l'aide de GRPO. Étant donné qu'une seule trajectoire de génération entrelacée peut impliquer plus de 25 appels au générateur, l'optimisation de l'ensemble de la trajectoire n'est pas réalisable sur le plan computationnel. Par conséquent, nous proposons une récompense de précision et une récompense par étapes, permettant à l'apprentissage par renforcement en une seule étape de guider efficacement l'ensemble de la trajectoire de génération. Les résultats montrent qu'InterleaveThinker améliore les performances de divers générateurs d'images. Sur les benchmarks de génération entrelacée, il atteint des performances comparables à Nano Banana et GPT-5. Étonnamment, il améliore également significativement le modèle de base sur les benchmarks basés sur le raisonnement ; par exemple, sur 4-step FLUX.2-klein, nous observons des gains substantiels sur WISE et RISE.

English

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.