Relatório Técnico Ovis-U1
Ovis-U1 Technical Report
June 29, 2025
Autores: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
cs.AI
Resumo
Neste relatório, apresentamos o Ovis-U1, um modelo unificado com 3 bilhões de parâmetros que integra compreensão multimodal, geração de texto para imagem e capacidades de edição de imagem. Com base na fundação da série Ovis, o Ovis-U1 incorpora um decodificador visual baseado em difusão emparelhado com um refinador de tokens bidirecional, permitindo tarefas de geração de imagem comparáveis a modelos líderes como o GPT-4o. Diferente de alguns modelos anteriores que utilizam um MLLM congelado para tarefas de geração, o Ovis-U1 emprega uma nova abordagem de treinamento unificado a partir de um modelo de linguagem. Comparado ao treinamento exclusivo em tarefas de compreensão ou geração, o treinamento unificado resulta em melhor desempenho, demonstrando o aprimoramento alcançado pela integração dessas duas tarefas. O Ovis-U1 atinge uma pontuação de 69,6 no OpenCompass Multi-modal Academic Benchmark, superando modelos recentes de última geração, como o Ristretto-3B e o SAIL-VL-1.5-2B. Na geração de texto para imagem, ele se destaca com pontuações de 83,72 e 0,89 nos benchmarks DPG-Bench e GenEval, respectivamente. Para edição de imagem, ele alcança 4,00 e 6,42 no ImgEdit-Bench e GEdit-Bench-EN, respectivamente. Como a versão inicial da série de modelos unificados Ovis, o Ovis-U1 expande os limites da compreensão, geração e edição multimodal.
English
In this report, we introduce Ovis-U1, a 3-billion-parameter unified model
that integrates multimodal understanding, text-to-image generation, and image
editing capabilities. Building on the foundation of the Ovis series, Ovis-U1
incorporates a diffusion-based visual decoder paired with a bidirectional token
refiner, enabling image generation tasks comparable to leading models like
GPT-4o. Unlike some previous models that use a frozen MLLM for generation
tasks, Ovis-U1 utilizes a new unified training approach starting from a
language model. Compared to training solely on understanding or generation
tasks, unified training yields better performance, demonstrating the
enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score
of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent
state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In
text-to-image generation, it excels with scores of 83.72 and 0.89 on the
DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves
4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the
initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries
of multimodal understanding, generation, and editing.