Unify-Agent: Un Agente Multimodal Unificado para la Síntesis de Imágenes Fundamentada en el Mundo

Resumen

Los modelos multimodales unificados ofrecen una arquitectura natural y prometedora para comprender conocimientos del mundo real diversos y complejos mientras generan imágenes de alta calidad. Sin embargo, aún dependen principalmente de conocimiento paramétrico congelado, lo que les dificulta la generación de imágenes del mundo real que involucran conceptos de cola larga e intensivos en conocimiento. Inspirados por el amplio éxito de los agentes en tareas del mundo real, exploramos el modelado agentico para abordar esta limitación. Específicamente, presentamos Unify-Agent, un agente multimodal unificado para la síntesis de imágenes ancladas en el mundo real, que replantea la generación de imágenes como una pipeline agentica que consiste en comprensión de instrucciones, búsqueda de evidencia multimodal, recaptioning anclado y síntesis final. Para entrenar nuestro modelo, construimos una pipeline de datos multimodal personalizada y seleccionamos 143.000 trayectorias agenticas de alta calidad para la síntesis de imágenes ancladas en el mundo real, permitiendo una supervisión efectiva sobre todo el proceso de generación agentico. Además, presentamos FactIP, un benchmark que cubre 12 categorías de conceptos factuales culturalmente significativos y de cola larga que requieren explícitamente un anclaje en conocimiento externo. Experimentos exhaustivos demuestran que nuestro Unify-Agent mejora sustancialmente respecto a su modelo unificado base en diversos benchmarks y tareas de generación del mundo real, acercándose a las capacidades de conocimiento mundial de los modelos cerrados más potentes. Como una exploración temprana del modelado basado en agentes para la síntesis de imágenes ancladas en el mundo real, nuestro trabajo subraya el valor de acoplar estrechamente el razonamiento, la búsqueda y la generación para una síntesis de imágenes agentica confiable en entornos de mundo abierto.

English

Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.

Unify-Agent: Un Agente Multimodal Unificado para la Síntesis de Imágenes Fundamentada en el Mundo

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Resumen

Support