ChatPaper.aiChatPaper

Технический отчет Ovis-U1

Ovis-U1 Technical Report

June 29, 2025
Авторы: Guo-Hua Wang, Shanshan Zhao, Xinjie Zhang, Liangfu Cao, Pengxin Zhan, Lunhao Duan, Shiyin Lu, Minghao Fu, Xiaohao Chen, Jianshan Zhao, Yang Li, Qing-Guo Chen
cs.AI

Аннотация

В данном отчете мы представляем Ovis-U1 — унифицированную модель с 3 миллиардами параметров, которая объединяет возможности мультимодального понимания, генерации изображений из текста и редактирования изображений. Развивая идеи серии Ovis, Ovis-U1 включает визуальный декодер на основе диффузии, работающий в паре с двунаправленным токенизатором, что позволяет выполнять задачи генерации изображений на уровне ведущих моделей, таких как GPT-4o. В отличие от некоторых предыдущих моделей, использующих замороженный MLLM для задач генерации, Ovis-U1 применяет новый унифицированный подход к обучению, начиная с языковой модели. По сравнению с обучением исключительно на задачах понимания или генерации, унифицированное обучение демонстрирует улучшенную производительность, что подчеркивает преимущества интеграции этих двух задач. Ovis-U1 достигает показателя 69.6 на мультимодальном академическом бенчмарке OpenCompass, превосходя последние модели, такие как Ristretto-3B и SAIL-VL-1.5-2B. В генерации изображений из текста она показывает выдающиеся результаты с оценками 83.72 и 0.89 на бенчмарках DPG-Bench и GenEval соответственно. Для редактирования изображений модель достигает показателей 4.00 и 6.42 на бенчмарках ImgEdit-Bench и GEdit-Bench-EN соответственно. Будучи первой версией серии унифицированных моделей Ovis, Ovis-U1 расширяет границы мультимодального понимания, генерации и редактирования.
English
In this report, we introduce Ovis-U1, a 3-billion-parameter unified model that integrates multimodal understanding, text-to-image generation, and image editing capabilities. Building on the foundation of the Ovis series, Ovis-U1 incorporates a diffusion-based visual decoder paired with a bidirectional token refiner, enabling image generation tasks comparable to leading models like GPT-4o. Unlike some previous models that use a frozen MLLM for generation tasks, Ovis-U1 utilizes a new unified training approach starting from a language model. Compared to training solely on understanding or generation tasks, unified training yields better performance, demonstrating the enhancement achieved by integrating these two tasks. Ovis-U1 achieves a score of 69.6 on the OpenCompass Multi-modal Academic Benchmark, surpassing recent state-of-the-art models such as Ristretto-3B and SAIL-VL-1.5-2B. In text-to-image generation, it excels with scores of 83.72 and 0.89 on the DPG-Bench and GenEval benchmarks, respectively. For image editing, it achieves 4.00 and 6.42 on the ImgEdit-Bench and GEdit-Bench-EN, respectively. As the initial version of the Ovis unified model series, Ovis-U1 pushes the boundaries of multimodal understanding, generation, and editing.
PDF442July 1, 2025