오비스-이미지 기술 보고서
Ovis-Image Technical Report
November 28, 2025
저자: Guo-Hua Wang, Liangfu Cao, Tianyu Cui, Minghao Fu, Xiaohao Chen, Pengxin Zhan, Jianshan Zhao, Lan Li, Bowen Fu, Jiaqi Liu, Qing-Guo Chen
cs.AI
초록
고품질 텍스트 렌더링에 특화된 7B 규모의 텍스트-이미지 생성 모델인 Ovis-Image를 소개한다. 본 모델은 엄격한 컴퓨팅 자원 제약 아래에서도 효율적으로 운영되도록 설계되었다. 기존 Ovis-U1 프레임워크를 기반으로 구축된 Ovis-Image는 diffusion 기반 시각 디코더와 더욱 강력해진 Ovis 2.5 멀티모달 백본을 통합하였으며, 대규모 사전 학습과 세심하게 설계된 사후 정제를 결합한 텍스트 중심 학습 파이프라인을 활용한다. 컴팩트한 구조에도 불구하고, Ovis-Image는 Qwen-Image와 같은 상당히 큰 오픈 소스 모델들과 동등한 수준의 텍스트 렌더링 성능을 달성하며 Seedream, GPT4o와 같은 클로즈드 소스 시스템에 근접한 성과를 보인다. 중요한 것은 본 모델이 적절한 메모리를 갖춘 단일 고사양 GPU에서도 배포 가능하여, 최첨단 텍스트 렌더링 기술과 실제 적용 간의 격차를 줄여준다는 점이다. 우리의 결과는 강력한 멀티모달 백본과 텍스트에 집중한 신중하게 설계된 학습 방법을 결합하면, 과도하게 크거나 독점적인 모델에 의존하지 않으면서도 신뢰할 수 있는 양방향 텍스트 렌더링 성능을 달성할 수 있음을 시사한다.
English
We introduce Ovis-Image, a 7B text-to-image model specifically optimized for high-quality text rendering, designed to operate efficiently under stringent computational constraints. Built upon our previous Ovis-U1 framework, Ovis-Image integrates a diffusion-based visual decoder with the stronger Ovis 2.5 multimodal backbone, leveraging a text-centric training pipeline that combines large-scale pre-training with carefully tailored post-training refinements. Despite its compact architecture, Ovis-Image achieves text rendering performance on par with significantly larger open models such as Qwen-Image and approaches closed-source systems like Seedream and GPT4o. Crucially, the model remains deployable on a single high-end GPU with moderate memory, narrowing the gap between frontier-level text rendering and practical deployment. Our results indicate that combining a strong multimodal backbone with a carefully designed, text-focused training recipe is sufficient to achieve reliable bilingual text rendering without resorting to oversized or proprietary models.