Rapporto Tecnico Ovis-U1
Ovis-U1 Technical Report
June 29, 2025
Autori: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
cs.AI
Abstract
In questo rapporto, presentiamo Ovis-U1, un modello unificato da 3 miliardi di parametri che integra capacità di comprensione multimodale, generazione di immagini da testo e modifica di immagini. Basandosi sulle fondamenta della serie Ovis, Ovis-U1 incorpora un decodificatore visivo basato su diffusione accoppiato con un raffinatore di token bidirezionale, abilitando compiti di generazione di immagini paragonabili a modelli leader come GPT-4o. A differenza di alcuni modelli precedenti che utilizzano un MLLM congelato per i compiti di generazione, Ovis-U1 sfrutta un nuovo approccio di addestramento unificato partendo da un modello linguistico. Rispetto all'addestramento esclusivo su compiti di comprensione o generazione, l'addestramento unificato produce prestazioni migliori, dimostrando il miglioramento ottenuto integrando questi due compiti. Ovis-U1 ottiene un punteggio di 69,6 sul benchmark accademico multimodale OpenCompass, superando modelli recenti all'avanguardia come Ristretto-3B e SAIL-VL-1.5-2B. Nella generazione di immagini da testo, eccelle con punteggi di 83,72 e 0,89 rispettivamente sui benchmark DPG-Bench e GenEval. Per la modifica di immagini, raggiunge 4,00 e 6,42 rispettivamente su ImgEdit-Bench e GEdit-Bench-EN. Come versione iniziale della serie di modelli unificati Ovis, Ovis-U1 spinge i confini della comprensione, generazione e modifica multimodale.
English
In this report, we introduce Ovis-U1, a 3-billion-parameter unified model
that integrates multimodal understanding, text-to-image generation, and image
editing capabilities. Building on the foundation of the Ovis series, Ovis-U1
incorporates a diffusion-based visual decoder paired with a bidirectional token
refiner, enabling image generation tasks comparable to leading models like
GPT-4o. Unlike some previous models that use a frozen MLLM for generation
tasks, Ovis-U1 utilizes a new unified training approach starting from a
language model. Compared to training solely on understanding or generation
tasks, unified training yields better performance, demonstrating the
enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score
of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent
state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In
text-to-image generation, it excels with scores of 83.72 and 0.89 on the
DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves
4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the
initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries
of multimodal understanding, generation, and editing.