ChatPaper.aiChatPaper

Relatório Técnico SAIL-VL2

SAIL-VL2 Technical Report

September 17, 2025
Autores: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI

Resumo

Apresentamos o SAIL-VL2, um modelo de base visão-linguagem (LVM) de código aberto para compreensão e raciocínio multimodal abrangente. Como sucessor do SAIL-VL, o SAIL-VL2 alcança desempenho de ponta nas escalas de 2B e 8B parâmetros em diversos benchmarks de imagem e vídeo, demonstrando capacidades robustas desde a percepção detalhada até o raciocínio complexo. Três inovações principais impulsionam sua eficácia. Primeiro, um pipeline de curadoria de dados em larga escala com estratégias de pontuação e filtragem melhora tanto a qualidade quanto a distribuição em dados de legendagem, OCR, QA e vídeo, aumentando a eficiência do treinamento. Segundo, um framework de treinamento progressivo começa com um codificador visual pré-treinado poderoso (SAIL-ViT), avança por meio de pré-treinamento multimodal e culmina em um paradigma híbrido SFT-RL de fusão de pensamento que fortalece sistematicamente as capacidades do modelo. Terceiro, avanços arquitetônicos vão além de LLMs densos para designs eficientes de Mixture-of-Experts (MoE) esparsos. Com essas contribuições, o SAIL-VL2 demonstra desempenho competitivo em 106 conjuntos de dados e alcança resultados de ponta em benchmarks desafiadores de raciocínio, como MMMU e MathVista. Além disso, no ranking OpenCompass, o SAIL-VL2-2B ocupa o primeiro lugar entre os modelos de código aberto oficialmente lançados com menos de 4B parâmetros, servindo como uma base eficiente e extensível para a comunidade multimodal de código aberto.
English
We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM) for comprehensive multimodal understanding and reasoning. As the successor to SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B parameter scales across diverse image and video benchmarks, demonstrating strong capabilities from fine-grained perception to complex reasoning. Three core innovations drive its effectiveness. First, a large-scale data curation pipeline with scoring and filtering strategies enhances both quality and distribution across captioning, OCR, QA, and video data, improving training efficiency. Second, a progressive training framework begins with a powerful pre-trained vision encoder (SAIL-ViT), advances through multimodal pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that systematically strengthens model capabilities. Third, architectural advances extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs. With these contributions, SAIL-VL2 demonstrates competitive performance across 106 datasets and achieves state-of-the-art results on challenging reasoning benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass leaderboard, SAIL-VL2-2B ranks first among officially released open-source models under the 4B parameter scale, while serving as an efficient and extensible foundation for the open-source multimodal community.
PDF443September 18, 2025