Informe Técnico Ovis-U1
Ovis-U1 Technical Report
June 29, 2025
Autores: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
cs.AI
Resumen
En este informe, presentamos Ovis-U1, un modelo unificado de 3 mil millones de parámetros que integra capacidades de comprensión multimodal, generación de texto a imagen y edición de imágenes. Basándose en los fundamentos de la serie Ovis, Ovis-U1 incorpora un decodificador visual basado en difusión junto con un refinador de tokens bidireccional, lo que permite tareas de generación de imágenes comparables a modelos líderes como GPT-4o. A diferencia de algunos modelos anteriores que utilizan un MLLM congelado para tareas de generación, Ovis-U1 emplea un nuevo enfoque de entrenamiento unificado que parte de un modelo de lenguaje. En comparación con el entrenamiento exclusivo en tareas de comprensión o generación, el entrenamiento unificado ofrece un mejor rendimiento, demostrando la mejora lograda al integrar estas dos tareas. Ovis-U1 obtiene una puntuación de 69.6 en el OpenCompass Multi-modal Academic Benchmark, superando a modelos recientes de vanguardia como Ristretto-3B y SAIL-VL-1.5-2B. En la generación de texto a imagen, destaca con puntuaciones de 83.72 y 0.89 en los benchmarks DPG-Bench y GenEval, respectivamente. Para la edición de imágenes, logra 4.00 y 6.42 en ImgEdit-Bench y GEdit-Bench-EN, respectivamente. Como la versión inicial de la serie de modelos unificados Ovis, Ovis-U1 amplía los límites de la comprensión, generación y edición multimodal.
English
In this report, we introduce Ovis-U1, a 3-billion-parameter unified model
that integrates multimodal understanding, text-to-image generation, and image
editing capabilities. Building on the foundation of the Ovis series, Ovis-U1
incorporates a diffusion-based visual decoder paired with a bidirectional token
refiner, enabling image generation tasks comparable to leading models like
GPT-4o. Unlike some previous models that use a frozen MLLM for generation
tasks, Ovis-U1 utilizes a new unified training approach starting from a
language model. Compared to training solely on understanding or generation
tasks, unified training yields better performance, demonstrating the
enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score
of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent
state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In
text-to-image generation, it excels with scores of 83.72 and 0.89 on the
DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves
4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the
initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries
of multimodal understanding, generation, and editing.