SAIL-VL2 Technischer Bericht
SAIL-VL2 Technical Report
September 17, 2025
papers.authors: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
papers.abstract
Wir stellen SAIL-VL2 vor, ein offenes Vision-Sprache-Grundmodell (LVM) für umfassendes multimodales Verständnis und logisches Denken. Als Nachfolger von SAIL-VL erreicht SAIL-VL2 auf den Parameterebenen 2B und 8B state-of-the-art Leistungen über diverse Bild- und Video-Benchmarks hinweg und zeigt starke Fähigkeiten von feinkörniger Wahrnehmung bis hin zu komplexem logischen Denken. Drei zentrale Innovationen tragen zu seiner Effektivität bei. Erstens verbessert eine groß angelegte Datenkuratierungspipeline mit Bewertungs- und Filterstrategien sowohl die Qualität als auch die Verteilung über Beschriftungen, OCR, Frage-Antwort-Daten und Videodaten hinweg, was die Trainings effizienz steigert. Zweitens beginnt ein progressives Trainingsframework mit einem leistungsstarken vortrainierten Vision-Encoder (SAIL-ViT), schreitet durch multimodales Vortraining fort und gipfelt in einem Denk-Fusions-SFT-RL-Hybridparadigma, das die Modellfähigkeiten systematisch stärkt. Drittens gehen architektonische Fortschritte über dichte LLMs hinaus zu effizienten spärlichen Mixture-of-Experts (MoE)-Designs. Mit diesen Beiträgen zeigt SAIL-VL2 wettbewerbsfähige Leistungen über 106 Datensätze hinweg und erzielt state-of-the-art Ergebnisse auf anspruchsvollen Denk-Benchmarks wie MMMU und MathVista. Darüber hinaus belegt SAIL-VL2-2B auf der OpenCompass-Rangliste den ersten Platz unter den offiziell veröffentlichten Open-Source-Modellen unter der 4B-Parameterebene und dient gleichzeitig als effiziente und erweiterbare Grundlage für die Open-Source-Multimodal-Community.
English
We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM)
for comprehensive multimodal understanding and reasoning. As the successor to
SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B
parameter scales across diverse image and video benchmarks, demonstrating
strong capabilities from fine-grained perception to complex reasoning. Three
core innovations drive its effectiveness. First, a large-scale data curation
pipeline with scoring and filtering strategies enhances both quality and
distribution across captioning, OCR, QA, and video data, improving training
efficiency. Second, a progressive training framework begins with a powerful
pre-trained vision encoder (SAIL-ViT), advances through multimodal
pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that
systematically strengthens model capabilities. Third, architectural advances
extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs.
With these contributions, SAIL-VL2 demonstrates competitive performance across
106 datasets and achieves state-of-the-art results on challenging reasoning
benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass
leaderboard, SAIL-VL2-2B ranks first among officially released open-source
models under the 4B parameter scale, while serving as an efficient and
extensible foundation for the open-source multimodal community.