Unify-Agent: Ein einheitlicher multimodaler Agent für weltbezogene Bildsynthese

Zusammenfassung

Einheitliche multimodale Modelle bieten eine natürliche und vielversprechende Architektur zum Verständnis vielfältigen und komplexen realen Weltwissens bei gleichzeitiger Erzeugung hochwertiger Bilder. Dennoch stützen sie sich hauptsächlich auf eingefrorenes parametrisches Wissen, was ihre Fähigkeit zur Erzeugung realer Bilder mit langschwänzigen und wissensintensiven Konzepten einschränkt. Inspiriert durch den breiten Erfolg von Agenten bei realen Aufgaben untersuchen wir agentenbasierte Modellierung zur Überwindung dieser Limitation. Konkret stellen wir Unify-Agent vor, einen einheitlichen multimodalen Agenten für weltverankerte Bildsynthese, der Bildgenerierung als agentenbasierten Prozess neu definiert, bestehend aus Prompt-Verständnis, multimodaler Evidenzsuche, verankerter Neubeschriftung und finaler Synthese. Für das Training unseres Modells entwickeln wir eine maßgeschneiderte multimodale Datenpipeline und kuratieren 143.000 hochwertige Agenten-Trajektorien für weltverankerte Bildsynthese, wodurch eine effektive Überwachung des gesamten agentenbasierten Generierungsprozesses ermöglicht wird. Weiter führen wir FactIP ein, einen Benchmark mit 12 Kategorien kulturell signifikanter und langschwänziger faktischer Konzepte, der explizit externe Wissensverankerung erfordert. Umfangreiche Experimente zeigen, dass unser Unify-Agent das Basismodell auf diversen Benchmarks und realen Generierungsaufgaben substanziell übertrifft und sich den Weltwissensfähigkeiten der stärksten Closed-Source-Modelle annähert. Als frühe Exploration agentenbasierter Modellierung für weltverankerte Bildsynthese unterstreicht unsere Arbeit den Wert enger Kopplung von Reasoning, Suche und Generierung für zuverlässige agentenbasierte Bildsynthese in offenen Welten.

English

Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.

Unify-Agent: Ein einheitlicher multimodaler Agent für weltbezogene Bildsynthese

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Zusammenfassung

Support