ChatPaper.aiChatPaper

Rapport Technique Ovis-U1

Ovis-U1 Technical Report

June 29, 2025
Auteurs: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
cs.AI

Résumé

Dans ce rapport, nous présentons Ovis-U1, un modèle unifié de 3 milliards de paramètres qui intègre la compréhension multimodale, la génération de texte à image et les capacités d'édition d'images. S'appuyant sur les fondations de la série Ovis, Ovis-U1 intègre un décodeur visuel basé sur la diffusion couplé à un raffineur de tokens bidirectionnel, permettant des tâches de génération d'images comparables aux modèles leaders tels que GPT-4o. Contrairement à certains modèles précédents qui utilisent un MLLM figé pour les tâches de génération, Ovis-U1 exploite une nouvelle approche de formation unifiée à partir d'un modèle de langage. Par rapport à une formation axée uniquement sur les tâches de compréhension ou de génération, la formation unifiée offre de meilleures performances, démontrant l'amélioration obtenue en intégrant ces deux tâches. Ovis-U1 obtient un score de 69,6 sur le benchmark académique multimodale OpenCompass, surpassant les modèles récents de pointe tels que Ristretto-3B et SAIL-VL-1.5-2B. En génération de texte à image, il excelle avec des scores de 83,72 et 0,89 sur les benchmarks DPG-Bench et GenEval, respectivement. Pour l'édition d'images, il atteint 4,00 et 6,42 sur les benchmarks ImgEdit-Bench et GEdit-Bench-EN, respectivement. En tant que version initiale de la série de modèles unifiés Ovis, Ovis-U1 repousse les limites de la compréhension, de la génération et de l'édition multimodales.
English
In this report, we introduce Ovis-U1, a 3-billion-parameter unified model that integrates multimodal understanding, text-to-image generation, and image editing capabilities. Building on the foundation of the Ovis series, Ovis-U1 incorporates a diffusion-based visual decoder paired with a bidirectional token refiner, enabling image generation tasks comparable to leading models like GPT-4o. Unlike some previous models that use a frozen MLLM for generation tasks, Ovis-U1 utilizes a new unified training approach starting from a language model. Compared to training solely on understanding or generation tasks, unified training yields better performance, demonstrating the enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In text-to-image generation, it excels with scores of 83.72 and 0.89 on the DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves 4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries of multimodal understanding, generation, and editing.
PDF432July 1, 2025