Relatório Técnico do Ovis2.5

Resumo

Apresentamos o Ovis2.5, um sucessor do Ovis2 projetado para percepção visual em resolução nativa e raciocínio multimodal robusto. O Ovis2.5 integra um vision transformer de resolução nativa que processa imagens em suas resoluções nativas e variáveis, evitando a degradação causada pelo recorte em resolução fixa e preservando tanto detalhes finos quanto o layout global — crucial para conteúdos visualmente densos, como gráficos complexos. Para fortalecer o raciocínio, treinamos o modelo para ir além da cadeia de pensamento linear e realizar reflexão — incluindo auto-verificação e revisão. Essa capacidade avançada é exposta como um "modo de pensamento" opcional no momento da inferência, permitindo que os usuários troquem latência por precisão aprimorada em entradas difíceis. O modelo é treinado por meio de um currículo abrangente de cinco fases que constrói progressivamente suas habilidades. O processo começa com pré-treinamento visual e multimodal básico, avança por ajuste de instrução em larga escala e culmina em aprimoramento de alinhamento e raciocínio usando DPO e GRPO. Para dimensionar essas atualizações de forma eficiente, empregamos empacotamento de dados multimodais e paralelismo híbrido, resultando em uma aceleração significativa de ponta a ponta. Lançamos dois modelos de código aberto: Ovis2.5-9B e Ovis2.5-2B. Este último continua a filosofia de "modelo pequeno, grande desempenho" do Ovis2, tornando-o ideal para cenários com recursos limitados e em dispositivos. No quadro de líderes multimodal OpenCompass, o Ovis2.5-9B alcança uma média de 78.3, marcando uma melhoria substancial em relação ao seu predecessor, Ovis2-8B, e atingindo resultados de ponta entre os MLLMs de código aberto na faixa de parâmetros abaixo de 40B; o Ovis2.5-2B pontua 73.9, estabelecendo o estado da arte (SOTA) para seu tamanho. Além das pontuações agregadas, o Ovis2.5 alcança resultados líderes em benchmarks STEM, exibe capacidades robustas em tarefas de fundamentação e vídeo e atinge o SOTA de código aberto em sua escala para análise de gráficos complexos.

English

We present Ovis2.5, a successor to Ovis2 designed for native-resolution visual perception and strong multimodal reasoning. Ovis2.5 integrates a native-resolution vision transformer that processes images at their native, variable resolutions, avoiding the degradation from fixed-resolution tiling and preserving both fine detail and global layout -- crucial for visually dense content like complex charts. To strengthen reasoning, we train the model to move beyond linear chain-of-thought and perform reflection -- including self-checking and revision. This advanced capability is exposed as an optional "thinking mode" at inference time, allowing users to trade latency for enhanced accuracy on difficult inputs. The model is trained via a comprehensive five-phase curriculum that progressively builds its skills. The process begins with foundational visual and multimodal pretraining, advances through large-scale instruction tuning, and culminates in alignment and reasoning enhancement using DPO and GRPO. To scale these upgrades efficiently, we employ multimodal data packing and hybrid parallelism, yielding a significant end-to-end speedup. We release two open-source models: Ovis2.5-9B and Ovis2.5-2B. The latter continues the "small model, big performance" philosophy of Ovis2, making it ideal for resource-constrained, on-device scenarios. On the OpenCompass multimodal leaderboard, Ovis2.5-9B averages 78.3, marking a substantial improvement over its predecessor, Ovis2-8B, and achieving state-of-the-art results among open-source MLLMs in the sub-40B parameter range; Ovis2.5-2B scores 73.9, establishing SOTA for its size. Beyond aggregate scores, Ovis2.5 achieves leading results on STEM benchmarks, exhibits strong capabilities on grounding and video tasks, and achieves open-source SOTA at its scale for complex chart analysis.

Relatório Técnico do Ovis2.5

Ovis2.5 Technical Report

Resumo

Support