UniWorld: Codificadores Semánticos de Alta Resolución para la Comprensión y Generación Visual Unificada

Resumen

Aunque los modelos unificados existentes ofrecen un rendimiento sólido en la comprensión de visión y lenguaje y en la generación de texto a imagen, están limitados en la exploración de tareas de percepción y manipulación de imágenes, las cuales son urgentemente demandadas por los usuarios para una amplia gama de aplicaciones. Recientemente, OpenAI lanzó su potente modelo GPT-4o-Image para la percepción y manipulación integral de imágenes, logrando una capacidad expresiva y captando el interés de la comunidad. Al observar el rendimiento de GPT-4o-Image en nuestros experimentos cuidadosamente diseñados, inferimos que GPT-4o-Image aprovecha características extraídas por codificadores semánticos en lugar de VAE, mientras que los VAE se consideran componentes esenciales en muchos modelos de manipulación de imágenes. Motivados por estas observaciones inspiradoras, presentamos un marco generativo unificado llamado UniWorld, basado en características semánticas proporcionadas por potentes modelos de visión-lenguaje y codificadores semánticos contrastivos. Como resultado, construimos un modelo unificado robusto utilizando solo el 1% de los datos de BAGEL, el cual supera consistentemente a BAGEL en benchmarks de edición de imágenes. UniWorld también mantiene capacidades competitivas de comprensión y generación de imágenes, logrando un rendimiento sólido en múltiples tareas de percepción de imágenes. Hacemos completamente de código abierto nuestros modelos, incluyendo los pesos del modelo, scripts de entrenamiento y evaluación, y conjuntos de datos.

English

Although existing unified models deliver strong performance on vision-language understanding and text-to-image generation, their models are limited in exploring image perception and manipulation tasks, which are urgently desired by users for wide applications. Recently, OpenAI released their powerful GPT-4o-Image model for comprehensive image perception and manipulation, achieving expressive capability and attracting community interests. By observing the performance of GPT-4o-Image in our carefully constructed experiments, we infer that GPT-4o-Image leverages features extracted by semantic encoders instead of VAE, while VAEs are considered essential components in many image manipulation models. Motivated by such inspiring observations, we present a unified generative framework named UniWorld based on semantic features provided by powerful visual-language models and contrastive semantic encoders. As a result, we build a strong unified model using only 1% amount of BAGEL's data, which consistently outperforms BAGEL on image editing benchmarks. UniWorld also maintains competitive image understanding and generation capabilities, achieving strong performance across multiple image perception tasks. We fully open-source our models, including model weights, training and evaluation scripts, and datasets.

UniWorld: Codificadores Semánticos de Alta Resolución para la Comprensión y Generación Visual Unificada

UniWorld: High-Resolution Semantic Encoders for Unified Visual Understanding and Generation

Resumen

Support