UniWorld: 통합 시각 이해 및 생성을 위한 고해상도 의미론적 인코더
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
June 3, 2025
저자: Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan
cs.AI
초록
기존의 통합 모델들은 시각-언어 이해 및 텍스트-이미지 생성에서 강력한 성능을 보여주지만, 이러한 모델들은 사용자들이 다양한 응용 분야에서 절실히 필요로 하는 이미지 인식 및 조작 작업을 탐구하는 데 한계가 있다. 최근 OpenAI는 포괄적인 이미지 인식 및 조작을 위한 강력한 GPT-4o-Image 모델을 공개하여 표현 능력을 달성하고 커뮤니티의 관심을 끌었다. 우리가 신중하게 설계한 실험에서 GPT-4o-Image의 성능을 관찰한 결과, GPT-4o-Image는 VAE 대신 의미론적 인코더에 의해 추출된 특징을 활용하는 것으로 추론되며, VAE는 많은 이미지 조작 모델에서 필수적인 구성 요소로 간주된다. 이러한 영감을 주는 관찰에 동기를 받아, 우리는 강력한 시각-언어 모델과 대조적 의미론적 인코더가 제공하는 의미론적 특징을 기반으로 한 UniWorld라는 통합 생성 프레임워크를 제시한다. 그 결과, 우리는 BAGEL 데이터의 1%만을 사용하여 강력한 통합 모델을 구축했으며, 이 모델은 이미지 편집 벤치마크에서 BAGEL을 지속적으로 능가한다. UniWorld는 또한 경쟁력 있는 이미지 이해 및 생성 능력을 유지하며, 여러 이미지 인식 작업에서 강력한 성능을 달성한다. 우리는 모델 가중치, 훈련 및 평가 스크립트, 데이터셋을 포함한 모델을 완전히 오픈소스로 공개한다.
English
Although existing unified models deliver strong performance on
vision-language understanding and text-to-image generation, their models are
limited in exploring image perception and manipulation tasks, which are
urgently desired by users for wide applications. Recently, OpenAI released
their powerful GPT-4o-Image model for comprehensive image perception and
manipulation, achieving expressive capability and attracting community
interests. By observing the performance of GPT-4o-Image in our carefully
constructed experiments, we infer that GPT-4o-Image leverages features
extracted by semantic encoders instead of VAE, while VAEs are considered
essential components in many image manipulation models. Motivated by such
inspiring observations, we present a unified generative framework named
UniWorld based on semantic features provided by powerful visual-language models
and contrastive semantic encoders. As a result, we build a strong unified model
using only 1% amount of BAGEL's data, which consistently outperforms BAGEL on
image editing benchmarks. UniWorld also maintains competitive image
understanding and generation capabilities, achieving strong performance across
multiple image perception tasks. We fully open-source our models, including
model weights, training and evaluation scripts, and datasets.