InterleaveThinker: Reforzando la Generación Intercalada Agéntica

Resumen

Los generadores de imágenes recientes han demostrado un fotorrealismo impresionante y capacidades de seguimiento de instrucciones en la generación y edición de imágenes individuales. Sin embargo, limitados por sus arquitecturas, no pueden lograr una generación intercalada (secuencia texto-imagen), que tiene aplicaciones cruciales en narrativas visuales, guías y manipulación incorporada. Incluso los Modelos Multimodales Unificados (UMM) de código abierto más recientes muestran un rendimiento limitado en este aspecto. En este artículo, presentamos InterleaveThinker, el primer pipeline multiagente diseñado para dotar a cualquier generador de imágenes existente de capacidades de generación intercalada. Específicamente, empleamos un agente planificador para organizar la secuencia de entrada de imágenes y texto, instruyendo al generador de imágenes sobre la ejecución requerida en cada paso. Posteriormente, introducimos un agente crítico para evaluar las salidas del generador, identificar muestras que se desvían de las instrucciones planificadas y refinar las instrucciones para su regeneración. Para implementar este pipeline, construimos Interleave-Planner-SFT-80k e Interleave-Critic-SFT-112k para realizar un arranque en frío de formato. Luego desarrollamos Interleave-Critic-RL-13k para reforzar la capacidad de corrección de instrucciones paso a paso dentro de una trayectoria de generación utilizando GRPO. Dado que una sola trayectoria de generación intercalada puede implicar más de 25 llamadas al generador, optimizar toda la trayectoria es computacionalmente inviable. Por lo tanto, proponemos recompensas de precisión y recompensas por paso, lo que permite que el aprendizaje por refuerzo en un solo paso guíe eficazmente toda la trayectoria de generación. Los resultados muestran que InterleaveThinker mejora el rendimiento en varios generadores de imágenes. En los puntos de referencia de generación intercalada, logra un rendimiento comparable al de Nano Banana y GPT-5. Sorprendentemente, también mejora significativamente el modelo base en puntos de referencia basados en razonamiento; por ejemplo, en FLUX.2-klein de 4 pasos, observamos ganancias sustanciales en WISE y RISE.

English

Recent image generators have demonstrated impressive photorealism and instruction-following capabilities in single-image generation and editing. However, constrained by their architectures, they cannot achieve interleaved generation (text-image sequence), which has crucial applications in visual narratives, guidance, and embodied manipulation. Even the latest open-source Unified Multimodal Models (UMMs) exhibit limited performance in this regard. In this paper, we introduce InterleaveThinker, the first multi-agent pipeline designed to endow any existing image generator with interleaved generation capabilities. Specifically, we employ a planner agent to organize the image-text input sequence, instructing the image generator on the required execution at each step. Subsequently, we introduce a critic agent to evaluate the generator's outputs, identify samples that deviate from the planned instructions, and refine the instructions for regeneration. To implement this pipeline, we construct the Interleave-Planner-SFT-80k and Interleave-Critic-SFT-112k to perform a format cold-start. Then we develop Interleave-Critic-RL-13k to reinforce the step-wise instruction correction capability within a generation trajectory using GRPO. Since a single interleaved generation trajectory may involve over 25 generator calls, optimizing the entire trajectory is computationally impractical. Therefore, we propose accuracy reward and step-wise reward, allowing single-step RL to effectively guide the entire generation trajectory. The results show that InterleaveThinker improves performance across various image generators. On interleaved generation benchmarks, it achieves performance comparable to Nano Banana and GPT-5. Surprisingly, it also significantly enhances the base model on reasoning-based benchmarks; for example, on 4-step FLUX.2-klein, we observe substantial gains on WISE and RISE.