Informe Técnico de SAIL-VL2
SAIL-VL2 Technical Report
September 17, 2025
Autores: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI
Resumen
Presentamos SAIL-VL2, un modelo base de visión-lenguaje (LVM) de código abierto para la comprensión y razonamiento multimodal integral. Como sucesor de SAIL-VL, SAIL-VL2 logra un rendimiento de vanguardia en escalas de 2B y 8B parámetros en diversos benchmarks de imágenes y videos, demostrando capacidades sólidas que van desde la percepción detallada hasta el razonamiento complejo. Tres innovaciones clave impulsan su efectividad. Primero, una canalización de curación de datos a gran escala con estrategias de puntuación y filtrado mejora tanto la calidad como la distribución en datos de subtitulado, OCR, preguntas y respuestas, y videos, optimizando la eficiencia del entrenamiento. Segundo, un marco de entrenamiento progresivo comienza con un potente codificador visual preentrenado (SAIL-ViT), avanza mediante preentrenamiento multimodal y culmina en un paradigma híbrido SFT-RL de fusión de pensamiento que fortalece sistemáticamente las capacidades del modelo. Tercero, avances arquitectónicos que van más allá de los LLM densos hacia diseños eficientes de Mixture-of-Experts (MoE) dispersos. Con estas contribuciones, SAIL-VL2 demuestra un rendimiento competitivo en 106 conjuntos de datos y logra resultados de vanguardia en benchmarks desafiantes de razonamiento como MMMU y MathVista. Además, en el ranking de OpenCompass, SAIL-VL2-2B ocupa el primer lugar entre los modelos de código abierto oficialmente lanzados con menos de 4B parámetros, sirviendo como una base eficiente y extensible para la comunidad de código abierto multimodal.
English
We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM)
for comprehensive multimodal understanding and reasoning. As the successor to
SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B
parameter scales across diverse image and video benchmarks, demonstrating
strong capabilities from fine-grained perception to complex reasoning. Three
core innovations drive its effectiveness. First, a large-scale data curation
pipeline with scoring and filtering strategies enhances both quality and
distribution across captioning, OCR, QA, and video data, improving training
efficiency. Second, a progressive training framework begins with a powerful
pre-trained vision encoder (SAIL-ViT), advances through multimodal
pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that
systematically strengthens model capabilities. Third, architectural advances
extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs.
With these contributions, SAIL-VL2 demonstrates competitive performance across
106 datasets and achieves state-of-the-art results on challenging reasoning
benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass
leaderboard, SAIL-VL2-2B ranks first among officially released open-source
models under the 4B parameter scale, while serving as an efficient and
extensible foundation for the open-source multimodal community.