SAIL-VL2 Technisch Rapport
SAIL-VL2 Technical Report
September 17, 2025
Auteurs: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
Samenvatting
We introduceren SAIL-VL2, een open-suite vision-language foundation model (LVM) voor uitgebreid multimodaal begrip en redeneren. Als opvolger van SAIL-VL behaalt SAIL-VL2 state-of-the-art prestaties op de 2B en 8B parameterschalen over diverse beeld- en videobenchmarks, waarbij het sterke capaciteiten demonstreert van fijnmazige perceptie tot complex redeneren. Drie kerninnovaties dragen bij aan de effectiviteit. Ten eerste verbetert een grootschalige datacuratiepijplijn met scorings- en filterstrategieën zowel de kwaliteit als de distributie over ondertiteling, OCR, QA en videogegevens, wat de trainings efficiëntie verhoogt. Ten tweede begint een progressief trainingsframework met een krachtige vooraf getrainde visie-encoder (SAIL-ViT), gaat verder met multimodale voorafgaande training en eindigt met een denk-fusie SFT-RL hybride paradigma dat de modelcapaciteiten systematisch versterkt. Ten derde gaan architectonische vooruitgangen verder dan dichte LLM's naar efficiënte sparse Mixture-of-Experts (MoE) ontwerpen. Met deze bijdragen toont SAIL-VL2 competitieve prestaties over 106 datasets en behaalt het state-of-the-art resultaten op uitdagende redeneerbenchmarks zoals MMMU en MathVista. Bovendien staat SAIL-VL2-2B op de OpenCompass leaderboard op de eerste plaats onder de officieel vrijgegeven open-source modellen onder de 4B parameterschaal, terwijl het dient als een efficiënte en uitbreidbare basis voor de open-source multimodale gemeenschap.
English
We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM)
for comprehensive multimodal understanding and reasoning. As the successor to
SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B
parameter scales across diverse image and video benchmarks, demonstrating
strong capabilities from fine-grained perception to complex reasoning. Three
core innovations drive its effectiveness. First, a large-scale data curation
pipeline with scoring and filtering strategies enhances both quality and
distribution across captioning, OCR, QA, and video data, improving training
efficiency. Second, a progressive training framework begins with a powerful
pre-trained vision encoder (SAIL-ViT), advances through multimodal
pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that
systematically strengthens model capabilities. Third, architectural advances
extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs.
With these contributions, SAIL-VL2 demonstrates competitive performance across
106 datasets and achieves state-of-the-art results on challenging reasoning
benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass
leaderboard, SAIL-VL2-2B ranks first among officially released open-source
models under the 4B parameter scale, while serving as an efficient and
extensible foundation for the open-source multimodal community.