Technischer Bericht Ovis-U1
Ovis-U1 Technical Report
June 29, 2025
Autoren: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
cs.AI
Zusammenfassung
In diesem Bericht stellen wir Ovis-U1 vor, ein einheitliches Modell mit 3 Milliarden Parametern, das multimodales Verständnis, Text-zu-Bild-Generierung und Bildbearbeitungsfähigkeiten integriert. Aufbauend auf der Grundlage der Ovis-Serie kombiniert Ovis-U1 einen diffusionsbasierten visuellen Decoder mit einem bidirektionalen Token-Refiner, wodurch Bildgenerierungsaufgaben ermöglicht werden, die mit führenden Modellen wie GPT-4o vergleichbar sind. Im Gegensatz zu einigen früheren Modellen, die ein eingefrorenes MLLM für Generierungsaufgaben verwenden, nutzt Ovis-U1 einen neuen einheitlichen Trainingsansatz, der von einem Sprachmodell ausgeht. Im Vergleich zum Training ausschließlich auf Verständnis- oder Generierungsaufgaben führt das einheitliche Training zu einer besseren Leistung, was die Verbesserung durch die Integration dieser beiden Aufgaben demonstriert. Ovis-U1 erreicht eine Punktzahl von 69,6 auf dem OpenCompass Multi-modal Academic Benchmark und übertrifft damit aktuelle State-of-the-Art-Modelle wie Ristretto-3B und SAIL-VL-1.5-2B. Bei der Text-zu-Bild-Generierung erzielt es hervorragende Werte von 83,72 und 0,89 auf den Benchmarks DPG-Bench und GenEval. Für die Bildbearbeitung erreicht es 4,00 und 6,42 auf den Benchmarks ImgEdit-Bench und GEdit-Bench-EN. Als erste Version der Ovis-einheitlichen Modellserie erweitert Ovis-U1 die Grenzen des multimodalen Verständnisses, der Generierung und der Bearbeitung.
English
In this report, we introduce Ovis-U1, a 3-billion-parameter unified model
that integrates multimodal understanding, text-to-image generation, and image
editing capabilities. Building on the foundation of the Ovis series, Ovis-U1
incorporates a diffusion-based visual decoder paired with a bidirectional token
refiner, enabling image generation tasks comparable to leading models like
GPT-4o. Unlike some previous models that use a frozen MLLM for generation
tasks, Ovis-U1 utilizes a new unified training approach starting from a
language model. Compared to training solely on understanding or generation
tasks, unified training yields better performance, demonstrating the
enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score
of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent
state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In
text-to-image generation, it excels with scores of 83.72 and 0.89 on the
DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves
4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the
initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries
of multimodal understanding, generation, and editing.