ChatPaper.aiChatPaper

Технический отчет SAIL-VL2

SAIL-VL2 Technical Report

September 17, 2025
Авторы: Weijie Yin, Yongjie Ye, Fangxun Shu, Yue Liao, Zijian Kang, Hongyuan Dong, Haiyang Yu, Dingkang Yang, Jiacong Wang, Han Wang, Wenzhuo Liu, Xiao Liang, Shuicheng Yan, Chao Feng
cs.AI

Аннотация

Мы представляем SAIL-VL2 — открытую модель-основу для обработки визуально-языковых данных (LVM), предназначенную для всестороннего мультимодального понимания и рассуждений. Как преемник SAIL-VL, SAIL-VL2 демонстрирует передовые результаты на масштабах 2B и 8B параметров в различных бенчмарках для изображений и видео, показывая мощные возможности — от детального восприятия до сложных рассуждений. Три ключевых инновации обеспечивают её эффективность. Во-первых, масштабируемый конвейер подготовки данных с системами оценки и фильтрации повышает качество и разнообразие данных для задач генерации подписей, OCR, вопросно-ответных систем и видео, улучшая эффективность обучения. Во-вторых, прогрессивная структура обучения начинается с мощного предобученного визуального кодировщика (SAIL-ViT), переходит к мультимодальному предобучению и завершается гибридной парадигмой SFT-RL с интегрированным мышлением, что систематически усиливает возможности модели. В-третьих, архитектурные улучшения выходят за рамки плотных LLM, включая эффективные разреженные модели Mixture-of-Experts (MoE). Благодаря этим достижениям, SAIL-VL2 демонстрирует конкурентоспособные результаты на 106 наборах данных и устанавливает новые стандарты на сложных бенчмарках для рассуждений, таких как MMMU и MathVista. Кроме того, на лидерборде OpenCompass SAIL-VL2-2B занимает первое место среди официально выпущенных открытых моделей с масштабом до 4B параметров, выступая эффективной и расширяемой основой для сообщества разработчиков мультимодальных технологий.
English
We introduce SAIL-VL2, an open-suite vision-language foundation model (LVM) for comprehensive multimodal understanding and reasoning. As the successor to SAIL-VL, SAIL-VL2 achieves state-of-the-art performance at the 2B and 8B parameter scales across diverse image and video benchmarks, demonstrating strong capabilities from fine-grained perception to complex reasoning. Three core innovations drive its effectiveness. First, a large-scale data curation pipeline with scoring and filtering strategies enhances both quality and distribution across captioning, OCR, QA, and video data, improving training efficiency. Second, a progressive training framework begins with a powerful pre-trained vision encoder (SAIL-ViT), advances through multimodal pre-training, and culminates in a thinking-fusion SFT-RL hybrid paradigm that systematically strengthens model capabilities. Third, architectural advances extend beyond dense LLMs to efficient sparse Mixture-of-Experts (MoE) designs. With these contributions, SAIL-VL2 demonstrates competitive performance across 106 datasets and achieves state-of-the-art results on challenging reasoning benchmarks such as MMMU and MathVista. Furthermore, on the OpenCompass leaderboard, SAIL-VL2-2B ranks first among officially released open-source models under the 4B parameter scale, while serving as an efficient and extensible foundation for the open-source multimodal community.
PDF271September 18, 2025