Ovis-Image Technisch Rapport
Ovis-Image Technical Report
November 28, 2025
Auteurs: Guo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen
cs.AI
Samenvatting
Wij introduceren Ovis-Image, een 7B tekst-naar-beeld model specifiek geoptimaliseerd voor hoogwaardige tekstweergave, ontworpen om efficiënt te functioneren onder strikte computationele beperkingen. Gebouwd op ons eerdere Ovis-U1 raamwerk, integreert Ovis-Image een op diffusie gebaseerde visuele decoder met de sterkere Ovis 2.5 multimodale backbone, gebruikmakend van een tekstgerichte trainingspijplijn die grootschalige pre-training combineert met zorgvuldig afgestemde post-training verfijningen. Ondanks zijn compacte architectuur bereikt Ovis-Image tekstweergaveprestaties die vergelijkbaar zijn met aanzienlijk grotere open modellen zoals Qwen-Image en benadert het closed-source systemen zoals Seedream en GPT4o. Cruciaal is dat het model inzetbaar blijft op een enkele high-end GPU met beperkt geheugen, waardoor de kloof tussen topniveau tekstweergave en praktische implementatie wordt verkleind. Onze resultaten tonen aan dat het combineren van een sterke multimodale backbone met een zorgvuldig ontworpen, tekstgericht trainingsrecept voldoende is om betrouwbare tweetalige tekstweergave te bereiken zonder toevlucht te nemen tot overgedimensioneerde of propriëtaire modellen.
English
We introduce Ovis-Image, a 7B text-to-image model specifically optimized for high-quality text rendering, designed to operate efficiently under stringent computational constraints. Built upon our previous Ovis-U1 framework, Ovis-Image integrates a diffusion-based visual decoder with the stronger Ovis 2.5 multimodal backbone, leveraging a text-centric training pipeline that combines large-scale pre-training with carefully tailored post-training refinements. Despite its compact architecture, Ovis-Image achieves text rendering performance on par with significantly larger open models such as Qwen-Image and approaches closed-source systems like Seedream and GPT4o. Crucially, the model remains deployable on a single high-end GPU with moderate memory, narrowing the gap between frontier-level text rendering and practical deployment. Our results indicate that combining a strong multimodal backbone with a carefully designed, text-focused training recipe is sufficient to achieve reliable bilingual text rendering without resorting to oversized or proprietary models.