Unify-Agent: Een Uniforme Multimodale Agent voor Wereldgebaseerde Beeldsynthese

Samenvatting

Unified multimodale modellen bieden een natuurlijke en veelbelovende architectuur voor het begrijpen van diverse en complexe kennis uit de echte wereld, terwijl ze hoogwaardige afbeeldingen genereren. Ze blijven echter voornamelijk vertrouwen op bevroren parametrische kennis, waardoor ze moeite hebben met het genereren van beelden uit de echte wereld die betrekking hebben op long-tail en kennisintensieve concepten. Geïnspireerd door het brede succes van agents bij taken in de echte wereld, onderzoeken we agent-gebaseerd modelleren om deze beperking aan te pakken. Concreet presenteren we Unify-Agent, een unified multimodale agent voor wereld-gegrondde beeld-synthese, die beeldgeneratie herformuleert als een agent-gebaseerde pijplijn bestaande uit prompt-begrip, multimodaal bewijs zoeken, gegrond her-bijschrijven en uiteindelijke synthese. Om ons model te trainen, construeren we een op maat gemaakte multimodale datapijplijn en cureren we 143K hoogwaardige agent-trajecten voor wereld-gegrondde beeld-synthese, wat effectieve supervisie over het volledige agent-gebaseerde generatieproces mogelijk maakt. We introduceren verder FactIP, een benchmark die 12 categorieën van cultureel significante en long-tail feitelijke concepten bestrijkt en expliciet om gronding met externe kennis vraagt. Uitgebreide experimenten tonen aan dat onze voorgestelde Unify-Agent substantieel verbetert ten opzichte van het basale unified model over diverse benchmarks en taken voor beeldgeneratie in de echte wereld, terwijl het de wereldkennis-capaciteiten van de sterkste closed-source modellen benadert. Als een vroege verkenning van agent-gebaseerd modelleren voor wereld-gegrondde beeld-synthese, benadrukt ons werk de waarde van het nauw koppelen van redeneren, zoeken en genereren voor betrouwbare agent-gebaseerde beeld-synthese in een open wereld.

English

Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.

Unify-Agent: Een Uniforme Multimodale Agent voor Wereldgebaseerde Beeldsynthese

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Samenvatting

Support