Technisch Rapport Ovis-U1
Ovis-U1 Technical Report
June 29, 2025
Auteurs: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
cs.AI
Samenvatting
In dit rapport introduceren we Ovis-U1, een uniform model met 3 miljard parameters dat multimodale begripsvorming, tekst-naar-beeldgeneratie en beeldbewerkingsmogelijkheden integreert. Voortbouwend op de basis van de Ovis-serie, bevat Ovis-U1 een op diffusie gebaseerde visuele decoder in combinatie met een bidirectionele tokenverfijner, waardoor het beeldgeneratietaken kan uitvoeren die vergelijkbaar zijn met toonaangevende modellen zoals GPT-4o. In tegenstelling tot sommige eerdere modellen die een bevroren MLLM gebruiken voor generatietaken, maakt Ovis-U1 gebruik van een nieuwe uniforme trainingsaanpak die start vanuit een taalmodel. Vergeleken met training die zich uitsluitend richt op begrips- of generatietaken, levert uniforme training betere prestaties op, wat de verbetering aantoont die wordt bereikt door deze twee taken te integreren. Ovis-U1 behaalt een score van 69,6 op de OpenCompass Multimodale Academische Benchmark, waarmee het recente state-of-the-art modellen zoals Ristretto-3B en SAIL-VL-1.5-2B overtreft. Bij tekst-naar-beeldgeneratie blinkt het uit met scores van 83,72 en 0,89 op respectievelijk de DPG-Bench en GenEval benchmarks. Voor beeldbewerking behaalt het scores van 4,00 en 6,42 op respectievelijk de ImgEdit-Bench en GEdit-Bench-EN. Als de eerste versie van de Ovis uniforme modelreeks, verlegt Ovis-U1 de grenzen van multimodale begripsvorming, generatie en bewerking.
English
In this report, we introduce Ovis-U1, a 3-billion-parameter unified model
that integrates multimodal understanding, text-to-image generation, and image
editing capabilities. Building on the foundation of the Ovis series, Ovis-U1
incorporates a diffusion-based visual decoder paired with a bidirectional token
refiner, enabling image generation tasks comparable to leading models like
GPT-4o. Unlike some previous models that use a frozen MLLM for generation
tasks, Ovis-U1 utilizes a new unified training approach starting from a
language model. Compared to training solely on understanding or generation
tasks, unified training yields better performance, demonstrating the
enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score
of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent
state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In
text-to-image generation, it excels with scores of 83.72 and 0.89 on the
DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves
4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the
initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries
of multimodal understanding, generation, and editing.