Ovis-Image Technischer Bericht
Ovis-Image Technical Report
November 28, 2025
papers.authors: Guo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen
cs.AI
papers.abstract
Wir stellen Ovis-Image vor, ein 7B-Text-zu-Bild-Modell, das speziell für hochwertiges Text-Rendering optimiert wurde und für einen effizienten Betrieb unter strengen Rechenbedingungen konzipiert ist. Aufbauend auf unserem früheren Ovis-U1-Framework integriert Ovis-Image einen diffusionsbasierten visuellen Decoder mit der leistungsstärkeren multimodalen Ovis-2.5-Backbone-Architektur. Dabei nutzt es eine textzentrierte Trainingspipeline, die groß angelegtes Pre-Training mit maßgeschneiderten Nachbearbeitungsverfeinerungen kombiniert. Trotz seiner kompakten Architektur erreicht Ovis-Image eine Text-Rendering-Leistung, die mit deutlich größeren Open-Source-Modellen wie Qwen-Image vergleichbar ist und sich geschlossenen Systemen wie Seedream und GPT4o annähert. Entscheidend ist, dass das Modell nach wie vor auf einer einzigen High-End-GPU mit moderatem Speicherbedarf einsetzbar bleibt und so die Lücke zwischen hochwertigem Text-Rendering und praktischer Implementierung verkleinert. Unsere Ergebnisse zeigen, dass die Kombination einer starken multimodalen Backbone-Architektur mit einem sorgfältig gestalteten, textfokussierten Trainingsansatz ausreicht, um zuverlässiges bilinguales Text-Rendering zu erreichen, ohne auf überdimensionierte oder proprietäre Modelle zurückgreifen zu müssen.
English
We introduce Ovis-Image, a 7B text-to-image model specifically optimized for high-quality text rendering, designed to operate efficiently under stringent computational constraints. Built upon our previous Ovis-U1 framework, Ovis-Image integrates a diffusion-based visual decoder with the stronger Ovis 2.5 multimodal backbone, leveraging a text-centric training pipeline that combines large-scale pre-training with carefully tailored post-training refinements. Despite its compact architecture, Ovis-Image achieves text rendering performance on par with significantly larger open models such as Qwen-Image and approaches closed-source systems like Seedream and GPT4o. Crucially, the model remains deployable on a single high-end GPU with moderate memory, narrowing the gap between frontier-level text rendering and practical deployment. Our results indicate that combining a strong multimodal backbone with a carefully designed, text-focused training recipe is sufficient to achieve reliable bilingual text rendering without resorting to oversized or proprietary models.