Rapport technique de SAIL-VL2
SAIL-VL2 Technical Report
September 17, 2025
papers.authors: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
papers.abstract
Nous présentons SAIL-VL2, un modèle de base vision-langage (LVM) open-suite pour une compréhension et un raisonnement multimodaux complets. Successeur de SAIL-VL, SAIL-VL2 atteint des performances de pointe aux échelles de 2B et 8B paramètres sur divers benchmarks d'images et de vidéos, démontrant des capacités solides allant de la perception fine au raisonnement complexe. Trois innovations clés en sous-tendent l'efficacité. Premièrement, un pipeline de curation de données à grande échelle avec des stratégies de notation et de filtrage améliore à la fois la qualité et la distribution des données de légendage, de reconnaissance de texte (OCR), de questions-réponses (QA) et de vidéos, augmentant ainsi l'efficacité de l'entraînement. Deuxièmement, un cadre d'entraînement progressif commence avec un encodeur visuel pré-entraîné puissant (SAIL-ViT), progresse à travers un pré-entraînement multimodal, et culmine dans un paradigme hybride SFT-RL de fusion de pensée qui renforce systématiquement les capacités du modèle. Troisièmement, des avancées architecturales vont au-delà des modèles de langage dense (LLM) pour inclure des conceptions efficaces de Mixture-of-Experts (MoE) éparses. Grâce à ces contributions, SAIL-VL2 démontre des performances compétitives sur 106 ensembles de données et obtient des résultats de pointe sur des benchmarks de raisonnement difficiles tels que MMMU et MathVista. De plus, sur le classement OpenCompass, SAIL-VL2-2B se classe premier parmi les modèles open-source officiellement publiés sous l'échelle de 4B paramètres, tout en servant de base efficace et extensible pour la communauté open-source multimodale.
English
We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM)
for comprehensive multimodal understanding and reasoning. As the successor to
SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B
parameter scales across diverse image and video benchmarks, demonstrating
strong capabilities from fine-grained perception to complex reasoning. Three
core innovations drive its effectiveness. First, a large-scale data curation
pipeline with scoring and filtering strategies enhances both quality and
distribution across captioning, OCR, QA, and video data, improving training
efficiency. Second, a progressive training framework begins with a powerful
pre-trained vision encoder (SAIL-ViT), advances through multimodal
pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that
systematically strengthens model capabilities. Third, architectural advances
extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs.
With these contributions, SAIL-VL2 demonstrates competitive performance across
106 datasets and achieves state-of-the-art results on challenging reasoning
benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass
leaderboard, SAIL-VL2-2B ranks first among officially released open-source
models under the 4B parameter scale, while serving as an efficient and
extensible foundation for the open-source multimodal community.