Unify-Agent : Un agent multimodal unifié pour la synthèse d'images ancrée dans le monde réel

Résumé

Les modèles multimodaux unifiés offrent une architecture naturelle et prometteuse pour comprendre les connaissances complexes et diverses du monde réel tout en générant des images de haute qualité. Cependant, ils reposent encore principalement sur des connaissances paramétriques figées, ce qui les handicape dans la génération d'images réalistes impliquant des concepts à longue traîne et riches en connaissances. Inspirés par le succès généralisé des agents dans les tâches du monde réel, nous explorons la modélisation agentielle pour résoudre cette limitation. Spécifiquement, nous présentons Unify-Agent, un agent multimodal unifié pour la synthèse d'images ancrée dans le monde réel, qui reformule la génération d'images comme un pipeline agentiel comprenant la compréhension de l'invite, la recherche de preuves multimodales, le ré-légendage ancré et la synthèse finale. Pour entraîner notre modèle, nous construisons un pipeline de données multimodales sur mesure et constituons un ensemble de 143 000 trajectoires agentielles de haute qualité pour la synthèse d'images ancrées, permettant un supervision efficace du processus complet de génération agentielle. Nous introduisons en outre FactIP, un benchmark couvrant 12 catégories de concepts factuels à importance culturelle et à longue traîne qui exigent explicitement un ancrage dans des connaissances externes. Des expériences approfondies montrent que notre Unify-Agent améliore substantiellement son modèle de base unifié sur divers benchmarks et tâches de génération réalistes, tout en approchant les capacités de connaissances mondiales des modèles propriétaires les plus performants. En tant qu'exploration pionnière de la modélisation agentielle pour la synthèse d'images ancrée dans le monde réel, notre travail souligne la valeur d'un couplage étroit entre le raisonnement, la recherche et la génération pour une synthèse d'images agentielle fiable en monde ouvert.

English

Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.

Unify-Agent : Un agent multimodal unifié pour la synthèse d'images ancrée dans le monde réel

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Résumé

Support