ChatPaper.aiChatPaper

Rapporto Tecnico SAIL-VL2

SAIL-VL2 Technical Report

September 17, 2025
Autori: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI

Abstract

Presentiamo SAIL-VL2, un modello fondazionale visione-linguaggio (LVM) open-suite per una comprensione e ragionamento multimodale completo. Come successore di SAIL-VL, SAIL-VL2 raggiunge prestazioni all'avanguardia alle scale di 2B e 8B parametri su diversi benchmark di immagini e video, dimostrando forti capacità che vanno dalla percezione fine-grana al ragionamento complesso. Tre innovazioni chiave ne guidano l'efficacia. In primo luogo, una pipeline di curatela dati su larga scala con strategie di punteggio e filtraggio migliora sia la qualità che la distribuzione tra dati di captioning, OCR, QA e video, aumentando l'efficienza dell'addestramento. In secondo luogo, un framework di addestramento progressivo inizia con un potente encoder visivo pre-addestrato (SAIL-ViT), avanza attraverso un pre-addestramento multimodale e culmina in un paradigma ibrido SFT-RL di fusione del pensiero che rafforza sistematicamente le capacità del modello. In terzo luogo, avanzamenti architetturali si estendono oltre i densi LLM a efficienti design sparsi Mixture-of-Experts (MoE). Con questi contributi, SAIL-VL2 dimostra prestazioni competitive su 106 dataset e raggiunge risultati all'avanguardia su benchmark di ragionamento impegnativi come MMMU e MathVista. Inoltre, sulla classifica OpenCompass, SAIL-VL2-2B si posiziona al primo posto tra i modelli open-source ufficialmente rilasciati sotto la scala di 4B parametri, servendo come fondazione efficiente ed estensibile per la comunità open-source multimodale.
English
We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM) for comprehensive multimodal understanding and reasoning. As the successor to SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B parameter scales across diverse image and video benchmarks, demonstrating strong capabilities from fine-grained perception to complex reasoning. Three core innovations drive its effectiveness. First, a large-scale data curation pipeline with scoring and filtering strategies enhances both quality and distribution across captioning, OCR, QA, and video data, improving training efficiency. Second, a progressive training framework begins with a powerful pre-trained vision encoder (SAIL-ViT), advances through multimodal pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that systematically strengthens model capabilities. Third, architectural advances extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs. With these contributions, SAIL-VL2 demonstrates competitive performance across 106 datasets and achieves state-of-the-art results on challenging reasoning benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass leaderboard, SAIL-VL2-2B ranks first among officially released open-source models under the 4B parameter scale, while serving as an efficient and extensible foundation for the open-source multimodal community.
PDF443September 18, 2025