ChatPaper.aiChatPaper

Rapporto Tecnico Ovis-Image

Ovis-Image Technical Report

November 28, 2025
Autori: Guo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen
cs.AI

Abstract

Introduciamo Ovis-Image, un modello text-to-image da 7B parametri specificamente ottimizzato per il rendering di testo di alta qualità, progettato per operare efficientemente sotto stringenti vincoli computazionali. Basato sul nostro precedente framework Ovis-U1, Ovis-Image integra un decoder visivo di tipo diffusion con il più potente backbone multimodale Ovis 2.5, sfruttando una pipeline di addestramento incentrata sul testo che combina pre-training su larga scala con raffinatezze post-allenamento accuratamente calibrate. Nonostante l'architettura compatta, Ovis-Image raggiunge prestazioni di rendering del testo pari a modelli open significativamente più grandi come Qwen-Image e si avvicina a sistemi closed-source come Seedream e GPT4o. Fondamentalmente, il modello rimane distribuibile su una singola GPU high-end con memoria moderata, riducendo il divario tra il rendering di testo di livello avanzato e la distribuzione pratica. I nostri risultati indicano che combinare un backbone multimodale solido con una ricetta di addestramento attentamente progettata e focalizzata sul testo è sufficiente per ottenere un rendering di testo bilingue affidabile senza ricorrere a modelli sovradimensionati o proprietari.
English
We introduce Ovis-Image, a 7B text-to-image model specifically optimized for high-quality text rendering, designed to operate efficiently under stringent computational constraints. Built upon our previous Ovis-U1 framework, Ovis-Image integrates a diffusion-based visual decoder with the stronger Ovis 2.5 multimodal backbone, leveraging a text-centric training pipeline that combines large-scale pre-training with carefully tailored post-training refinements. Despite its compact architecture, Ovis-Image achieves text rendering performance on par with significantly larger open models such as Qwen-Image and approaches closed-source systems like Seedream and GPT4o. Crucially, the model remains deployable on a single high-end GPU with moderate memory, narrowing the gap between frontier-level text rendering and practical deployment. Our results indicate that combining a strong multimodal backbone with a carefully designed, text-focused training recipe is sufficient to achieve reliable bilingual text rendering without resorting to oversized or proprietary models.
PDF21December 4, 2025