Unify-Agent: Un Agente Multimodale Unificato per la Sintesi di Immagini Radicate nel Mondo

Abstract

I modelli multimodali unificati forniscono un'architettura naturale e promettente per comprendere conoscenze reali diverse e complesse, generando al contempo immagini di alta qualità. Tuttavia, si basano ancora principalmente su conoscenze parametriche congelate, il che li porta a incontrare difficoltà nella generazione di immagini del mondo reale che coinvolgono concetti a coda lunga e ad alta intensità di conoscenza. Ispirati dall'ampio successo degli agenti nei compiti del mondo reale, esploriamo la modellazione agentica per affrontare questa limitazione. Nello specifico, presentiamo Unify-Agent, un agente multimodale unificato per la sintesi di immagini ancorate al mondo reale, che riformula la generazione di immagini come una pipeline agentica composta da comprensione del prompt, ricerca di evidenze multimodali, ricaptioning ancorato e sintesi finale. Per addestrare il nostro modello, costruiamo una pipeline di dati multimodali su misura e curiamo 143.000 traiettorie agentiche di alta qualità per la sintesi di immagini ancorate al mondo reale, consentendo una supervisione efficace sull'intero processo di generazione agentico. Introduciamo inoltre FactIP, un benchmark che copre 12 categorie di concetti fattuali culturalmente significativi e a coda lunga, che richiede esplicitamente un ancoraggio a conoscenze esterne. Esperimenti estesi mostrano che il nostro Unify-Agent proposto migliora sostanzialmente rispetto al suo modello base unificato su diversi benchmark e compiti di generazione del mondo reale, avvicinandosi alle capacità di conoscenza mondiale dei modelli proprietari più potenti. In quanto esplorazione pionieristica della modellazione basata su agenti per la sintesi di immagini ancorate al mondo reale, il nostro lavoro evidenzia il valore di un accoppiamento stretto tra ragionamento, ricerca e generazione per una sintesi agentica di immagini affidabile in un mondo aperto.

English

Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.

Unify-Agent: Un Agente Multimodale Unificato per la Sintesi di Immagini Radicate nel Mondo

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Abstract

Support