Relatório Técnico Ovis-Image
Ovis-Image Technical Report
November 28, 2025
Autores: Guo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen
cs.AI
Resumo
Apresentamos o Ovis-Image, um modelo de texto para imagem de 7B especialmente otimizado para renderização de texto de alta qualidade, projetado para operar com eficiência sob restrições computacionais rigorosas. Construído sobre a nossa estrutura anterior Ovis-U1, o Ovis-Image integra um decodificador visual baseado em difusão com a mais robusta backbone multimodal Ovis 2.5, aproveitando um pipeline de treinamento centrado em texto que combina pré-treinamento em larga escala com refinamentos pós-treinamento cuidadosamente adaptados. Apesar de sua arquitetura compacta, o Ovis-Image alcança um desempenho de renderização de texto equivalente a modelos abertos significativamente maiores, como o Qwen-Image, e aproxima-se de sistemas proprietários como Seedream e GPT4o. Crucialmente, o modelo mantém-se implantável em uma única GPU high-end com memória moderada, reduzindo a lacuna entre a renderização de texto de nível de ponta e a implantação prática. Nossos resultados indicam que combinar uma backbone multimodal forte com uma receita de treinamento cuidadosamente projetada e focada em texto é suficiente para alcançar uma renderização de texto bilíngue confiável sem recorrer a modelos superdimensionados ou proprietários.
English
We introduce Ovis-Image, a 7B text-to-image model specifically optimized for high-quality text rendering, designed to operate efficiently under stringent computational constraints. Built upon our previous Ovis-U1 framework, Ovis-Image integrates a diffusion-based visual decoder with the stronger Ovis 2.5 multimodal backbone, leveraging a text-centric training pipeline that combines large-scale pre-training with carefully tailored post-training refinements. Despite its compact architecture, Ovis-Image achieves text rendering performance on par with significantly larger open models such as Qwen-Image and approaches closed-source systems like Seedream and GPT4o. Crucially, the model remains deployable on a single high-end GPU with moderate memory, narrowing the gap between frontier-level text rendering and practical deployment. Our results indicate that combining a strong multimodal backbone with a carefully designed, text-focused training recipe is sufficient to achieve reliable bilingual text rendering without resorting to oversized or proprietary models.