Unify-Agent: Um Agente Multimodal Unificado para Síntese de Imagens Fundamentada no Mundo

Resumo

Os modelos multimodais unificados oferecem uma arquitetura natural e promissora para compreender conhecimentos reais diversos e complexos, gerando simultaneamente imagens de alta qualidade. No entanto, eles ainda dependem principalmente de conhecimento paramétrico congelado, o que os faz ter dificuldades com a geração de imagens do mundo real que envolvem conceitos de cauda longa e intensivos em conhecimento. Inspirados pelo amplo sucesso de agentes em tarefas do mundo real, exploramos a modelagem agentiva para superar essa limitação. Especificamente, apresentamos o Unify-Agent, um agente multimodal unificado para síntese de imagens fundamentada no mundo real, que reformula a geração de imagens como um pipeline agentivo composto por compreensão de prompt, busca de evidências multimodais, recaptioning fundamentado e síntese final. Para treinar nosso modelo, construímos um pipeline de dados multimodal personalizado e curamos 143 mil trajetórias agentivas de alta qualidade para síntese de imagens fundamentada no mundo real, permitindo uma supervisão eficaz sobre todo o processo de geração agentivo. Introduzimos ainda o FactIP, um benchmark que abrange 12 categorias de conceitos factuais culturalmente significativos e de cauda longa que exigem explicitamente fundamentação em conhecimento externo. Experimentos extensivos mostram que nosso Unify-Agent proposto supera substancialmente seu modelo unificado base em diversos benchmarks e tarefas de geração do mundo real, ao mesmo tempo que se aproxima das capacidades de conhecimento mundial dos modelos proprietários mais robustos. Como uma exploração inicial da modelagem baseada em agentes para síntese de imagens fundamentada no mundo real, nosso trabalho destaca o valor do acoplamento estreito entre raciocínio, busca e geração para uma síntese agentiva de imagens confiável em mundo aberto.

English

Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.

Unify-Agent: Um Agente Multimodal Unificado para Síntese de Imagens Fundamentada no Mundo

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Resumo

Support