Unify-Agent: Унифицированный мультимодальный агент для создания изображений, основанных на реальном мире

Аннотация

Унифицированные мультимодальные модели предоставляют естественную и перспективную архитектуру для понимания разнообразных и сложных знаний реального мира с одновременным генерированием высококачественных изображений. Однако они по-прежнему в основном полагаются на замороженные параметрические знания, что заставляет их испытывать трудности с генерацией изображений реального мира, включающих редкие и требующие глубоких знаний концепции. Вдохновленные широким успехом агентов в решении практических задач, мы исследуем агентное моделирование для преодоления этого ограничения. В частности, мы представляем Unify-Agent — унифицированного мультимодального агента для синтеза изображений, основанного на реальном мире, который переосмысливает генерацию изображений как агентный конвейер, состоящий из понимания промпта, поиска мультимодальных свидетельств, обоснованного переописания и финального синтеза. Для обучения нашей модели мы создали специализированный мультимодальный конвейер данных и отобрали 143 тыс. высококачественных траекторий агента для синтеза изображений, основанного на реальном мире, что позволяет осуществлять эффективный контроль над полным агентным процессом генерации. Мы также представляем FactIP — эталонный набор данных, охватывающий 12 категорий культурно значимых и редких фактических концепций, которые явно требуют привязки к внешним знаниям. Многочисленные эксперименты показывают, что наш Unify-Agent существенно превосходит базовую унифицированную модель на различных эталонных тестах и задачах генерации из реального мира, приближаясь по возможностям работы со знаниями о мире к самым мощным проприетарным моделям. Будучи ранним исследованием агентного моделирования для синтеза изображений, основанного на реальном мире, наша работа подчеркивает ценность тесной связи рассуждений, поиска и генерации для надежного агентного синтеза изображений в открытом мире.

English

Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.

Unify-Agent: Унифицированный мультимодальный агент для создания изображений, основанных на реальном мире

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Аннотация

Support