ChatPaper.aiChatPaper

Unify-Agent: 세계 기반 이미지 생성을 위한 통합 멀티모달 에이전트

Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

March 31, 2026
저자: Shuang Chen, Quanxin Shou, Hangting Chen, Yucheng Zhou, Kaituo Feng, Wenbo Hu, Yi-Fan Zhang, Yunlong Lin, Wenxuan Huang, Mingyang Song, Dasen Dai, Bolin Jiang, Manyuan Zhang, Shi-Xue Zhang, Zhengkai Jiang, Lucas Wang, Zhao Zhong, Yu Cheng, Nanyun Peng
cs.AI

초록

통합 멀티모달 모델은 다양한 복잡한 현실 세계 지식을 이해하면서 고품질 이미지를 생성하기 위한 자연스럽고 유망한 아키텍처를 제공합니다. 그러나 이러한 모델들은 여전히 주로 고정된 매개변수적 지식에 의존하기 때문에, 롱테일 및 지식 집약적 개념을 포함하는 현실 세계 이미지 생성에는 어려움을 겪습니다. 현실 세계 작업에서 에이전트가 거둔 광범위한 성공에 영감을 받아, 우리는 이러한 한계를 해결하기 위해 에이전트 기반 모델링을 탐구합니다. 구체적으로, 우리는 세계 정보에 기반한 이미지 합성을 위한 통합 멀티모달 에이전트인 Unify-Agent를 제안합니다. 이는 이미지 생성을 프롬프트 이해, 멀티모달 증거 탐색, 근거 기반 재설명, 최종 합성으로 구성된 에이전트 파이프라인으로 재구성합니다. 우리 모델을 학습시키기 위해 맞춤형 멀티모달 데이터 파이프라인을 구축하고 세계 정보 기반 이미지 합성을 위한 14만 3천 개의 고품질 에이전트 궤적 데이터를 정제하여 전체 에이전트 생성 과정에 대한 효과적인 지도를 가능하게 했습니다. 또한 외부 지식 기반이 명시적으로 요구되는 문화적으로 중요하고 롱테일 특성을 가진 사실적 개념의 12개 범주를 포함하는 FactIP 벤치마크를 도입합니다. 광범위한 실험을 통해 우리가 제안한 Unify-Agent가 다양한 벤치마크와 현실 세계 생성 작업에서 기본 통합 모델을 크게 능가하는 동시에, 가장 강력한 클로즈드 소스 모델들의 세계 지식 능력에 근접함을 보여줍니다. 세계 정보 기반 이미지 합성을 위한 에이전트 기반 모델링의 초기 탐구로서, 우리의 작업은 신뢰할 수 있는 개방형 세계 에이전트 이미지 합성을 위해 추론, 탐색, 생성을 긴밀하게 결합하는 가치를 부각시킵니다.
English
Unified multimodal models provide a natural and promising architecture for understanding diverse and complex real-world knowledge while generating high-quality images. However, they still rely primarily on frozen parametric knowledge, which makes them struggle with real-world image generation involving long-tail and knowledge-intensive concepts. Inspired by the broad success of agents on real-world tasks, we explore agentic modeling to address this limitation. Specifically, we present Unify-Agent, a unified multimodal agent for world-grounded image synthesis, which reframes image generation as an agentic pipeline consisting of prompt understanding, multimodal evidence searching, grounded recaptioning, and final synthesis. To train our model, we construct a tailored multimodal data pipeline and curate 143K high-quality agent trajectories for world-grounded image synthesis, enabling effective supervision over the full agentic generation process. We further introduce FactIP, a benchmark covering 12 categories of culturally significant and long-tail factual concepts that explicitly requires external knowledge grounding. Extensive experiments show that our proposed Unify-Agent substantially improves over its base unified model across diverse benchmarks and real world generation tasks, while approaching the world knowledge capabilities of the strongest closed-source models. As an early exploration of agent-based modeling for world-grounded image synthesis, our work highlights the value of tightly coupling reasoning, searching, and generation for reliable open-world agentic image synthesis.
PDF331April 2, 2026