InterleaveThinker: Verstärkung agentischer verschachtelter Generierung

Zusammenfassung

Jüngste Bildgeneratoren haben beeindruckenden Fotorealismus und die Fähigkeit zur Befolgung von Anweisungen bei der Einzelbildgenerierung und -bearbeitung gezeigt. Aufgrund ihrer Architektur sind sie jedoch nicht in der Lage, eine verschränkte Generierung (Text-Bild-Sequenz) zu erreichen, die entscheidende Anwendungen in visuellen Erzählungen, Führung und verkörperter Manipulation hat. Selbst die neuesten quelloffenen Unified Multimodal Models (UMMs) zeigen in dieser Hinsicht eine begrenzte Leistung. In diesem Beitrag stellen wir InterleaveThinker vor, die erste Multi-Agent-Pipeline, die darauf ausgelegt ist, jeden vorhandenen Bildgenerator mit Fähigkeiten zur verschränkten Generierung auszustatten. Insbesondere setzen wir einen Planungsagenten ein, um die Bild-Text-Eingabesequenz zu organisieren und den Bildgenerator über die erforderliche Ausführung in jedem Schritt zu instruieren. Anschließend führen wir einen Kritikagenten ein, um die Ausgaben des Generators zu bewerten, Proben zu identifizieren, die von den geplanten Anweisungen abweichen, und die Anweisungen für die erneute Generierung zu verfeinern. Zur Implementierung dieser Pipeline erstellen wir die Datensätze Interleave-Planner-SFT-80k und Interleave-Critic-SFT-112k, um einen Format-Kaltstart durchzuführen. Anschließend entwickeln wir Interleave-Critic-RL-13k, um die schrittweise Anweisungskorrekturfähigkeit innerhalb einer Generierungstrajektorie mittels GRPO zu verstärken. Da eine einzelne verschränkte Generierungstrajektorie über 25 Generatoraufrufe umfassen kann, ist die Optimierung der gesamten Trajektorie rechnerisch unpraktikabel. Daher schlagen wir eine Genauigkeitsbelohnung und eine schrittweise Belohnung vor, die es ermöglichen, mit einstufigem RL die gesamte Generierungstrajektorie effektiv zu steuern. Die Ergebnisse zeigen, dass InterleaveThinker die Leistung bei verschiedenen Bildgeneratoren verbessert. Bei Benchmarks zur verschränkten Generierung erreicht es eine mit Nano Banana und GPT-5 vergleichbare Leistung. Überraschenderweise verbessert es auch das Basismodell in reasoning-basierten Benchmarks erheblich; zum Beispiel beobachten wir bei 4-Schritt-FLUX.2-klein substanzielle Verbesserungen bei WISE und RISE.

English

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.