UniWorld: Codificadores Semánticos de Alta Resolución para la Comprensión y Generación Visual Unificada
UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation
June 3, 2025
Autores: Bin Lin, Zongjian Li, Xinhua Cheng, Yuwei Niu, Yang Ye, Xianyi He, Shenghai Yuan, Wangbo Yu, Shaodong Wang, Yunyang Ge, Yatian Pang, Li Yuan
cs.AI
Resumen
Aunque los modelos unificados existentes ofrecen un rendimiento sólido en la comprensión de visión y lenguaje y en la generación de texto a imagen, están limitados en la exploración de tareas de percepción y manipulación de imágenes, las cuales son urgentemente demandadas por los usuarios para una amplia gama de aplicaciones. Recientemente, OpenAI lanzó su potente modelo GPT-4o-Image para la percepción y manipulación integral de imágenes, logrando una capacidad expresiva y captando el interés de la comunidad. Al observar el rendimiento de GPT-4o-Image en nuestros experimentos cuidadosamente diseñados, inferimos que GPT-4o-Image aprovecha características extraídas por codificadores semánticos en lugar de VAE, mientras que los VAE se consideran componentes esenciales en muchos modelos de manipulación de imágenes. Motivados por estas observaciones inspiradoras, presentamos un marco generativo unificado llamado UniWorld, basado en características semánticas proporcionadas por potentes modelos de visión-lenguaje y codificadores semánticos contrastivos. Como resultado, construimos un modelo unificado robusto utilizando solo el 1% de los datos de BAGEL, el cual supera consistentemente a BAGEL en benchmarks de edición de imágenes. UniWorld también mantiene capacidades competitivas de comprensión y generación de imágenes, logrando un rendimiento sólido en múltiples tareas de percepción de imágenes. Hacemos completamente de código abierto nuestros modelos, incluyendo los pesos del modelo, scripts de entrenamiento y evaluación, y conjuntos de datos.
English
Although existing unified models deliver strong performance on
vision-language understanding and text-to-image generation, their models are
limited in exploring image perception and manipulation tasks, which are
urgently desired by users for wide applications. Recently, OpenAI released
their powerful GPT-4o-Image model for comprehensive image perception and
manipulation, achieving expressive capability and attracting community
interests. By observing the performance of GPT-4o-Image in our carefully
constructed experiments, we infer that GPT-4o-Image leverages features
extracted by semantic encoders instead of VAE, while VAEs are considered
essential components in many image manipulation models. Motivated by such
inspiring observations, we present a unified generative framework named
UniWorld based on semantic features provided by powerful visual-language models
and contrastive semantic encoders. As a result, we build a strong unified model
using only 1% amount of BAGEL's data, which consistently outperforms BAGEL on
image editing benchmarks. UniWorld also maintains competitive image
understanding and generation capabilities, achieving strong performance across
multiple image perception tasks. We fully open-source our models, including
model weights, training and evaluation scripts, and datasets.