Rapport Technique Ovis-Image
Ovis-Image Technical Report
November 28, 2025
papers.authors: Guo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen
cs.AI
papers.abstract
Nous présentons Ovis-Image, un modèle de génération d'images à partir de texte de 7 milliards de paramètres, spécifiquement optimisé pour un rendu de texte de haute qualité et conçu pour fonctionner efficacement sous de strictes contraintes de calcul. Bâti sur notre précédent cadre Ovis-U1, Ovis-Image intègre un décodeur visuel basé sur la diffusion avec le backbone multimodal plus puissant Ovis 2.5, en tirant parti d'un pipeline d'entraînement centré sur le texte qui combine un pré-entraînement à grande échelle avec des affinages post-entraînement soigneusement adaptés. Malgré son architecture compacte, Ovis-Image atteint des performances de rendu de texte comparables à des modèles ouverts bien plus grands comme Qwen-Image et s'approche de systèmes propriétaires tels que Seedream et GPT4o. Fait crucial, le modèle reste déployable sur un seul GPU haut de gamme avec une mémoire modérée, réduisant ainsi l'écart entre un rendu de texte de niveau avancé et un déploiement pratique. Nos résultats indiquent que la combinaison d'un backbone multimodal performant avec une méthode d'entraînement soigneusement conçue et axée sur le texte suffit à obtenir un rendu de texte bilingue fiable sans recourir à des modèles surdimensionnés ou propriétaires.
English
We introduce Ovis-Image, a 7B text-to-image model specifically optimized for high-quality text rendering, designed to operate efficiently under stringent computational constraints. Built upon our previous Ovis-U1 framework, Ovis-Image integrates a diffusion-based visual decoder with the stronger Ovis 2.5 multimodal backbone, leveraging a text-centric training pipeline that combines large-scale pre-training with carefully tailored post-training refinements. Despite its compact architecture, Ovis-Image achieves text rendering performance on par with significantly larger open models such as Qwen-Image and approaches closed-source systems like Seedream and GPT4o. Crucially, the model remains deployable on a single high-end GPU with moderate memory, narrowing the gap between frontier-level text rendering and practical deployment. Our results indicate that combining a strong multimodal backbone with a carefully designed, text-focused training recipe is sufficient to achieve reliable bilingual text rendering without resorting to oversized or proprietary models.