ChatPaper.aiChatPaper

Rapport Technique STEP3-VL-10B

STEP3-VL-10B Technical Report

January 14, 2026
papers.authors: Ailin Huang, Chengyuan Yao, Chunrui Han, Fanqi Wan, Hangyu Guo, Haoran Lv, Hongyu Zhou, Jia Wang, Jian Zhou, Jianjian Sun, Jingcheng Hu, Kangheng Lin, Liang Zhao, Mitt Huang, Song Yuan, Wenwen Qu, Xiangfeng Wang, Yanlin Lai, Yingxiu Zhao, Yinmin Zhang, Yukang Shi, Yuyang Chen, Zejia Weng, Ziyang Meng, Ang Li, Aobo Kong, Bo Dong, Changyi Wan, David Wang, Di Qi, Dingming Li, En Yu, Guopeng Li, Haiquan Yin, Han Zhou, Hanshan Zhang, Haolong Yan, Hebin Zhou, Hongbo Peng, Jiaran Zhang, Jiashu Lv, Jiayi Fu, Jie Cheng, Jie Zhou, Jisheng Yin, Jingjing Xie, Jingwei Wu, Jun Zhang, Junfeng Liu, Kaijun Tan, Kaiwen Yan, Liangyu Chen, Lina Chen, Mingliang Li, Qian Zhao, Quan Sun, Shaoliang Pang, Shengjie Fan, Shijie Shang, Siyuan Zhang, Tianhao You, Wei Ji, Wuxun Xie, Xiaobo Yang, Xiaojie Hou, Xiaoran Jiao, Xiaoxiao Ren, Xiangwen Kong, Xin Huang, Xin Wu, Xing Chen, Xinran Wang, Xuelin Zhang, Yana Wei, Yang Li, Yanming Xu, Yeqing Shen, Yuang Peng, Yue Peng, Yu Zhou, Yusheng Li, Yuxiang Yang, Yuyang Zhang, Zhe Xie, Zhewei Huang, Zhenyi Lu, Zhimin Fan, Zihui Cheng, Daxin Jiang, Qi Han, Xiangyu Zhang, Yibo Zhu, Zheng Ge
cs.AI

papers.abstract

Nous présentons STEP3-VL-10B, un modèle fondateur open-source léger conçu pour redéfinir le compromis entre efficacité compacte et intelligence multimodale de pointe. STEP3-VL-10B est réalisé grâce à deux changements stratégiques : premièrement, une stratégie de pré-entraînement unifiée et entièrement dégelée sur 1,2 billion de tokens multimodaux qui intègre un encodeur de perception aligné sur le langage avec un décodeur Qwen3-8B pour établir une synergie vision-langage intrinsèque ; deuxièmement, un pipeline d'après-entraînement à grande échelle comprenant plus de 1000 itérations d'apprentissage par renforcement. Surtout, nous mettons en œuvre le Raisonnement Coordonné Parallèle (PaCoRe) pour augmenter la puissance de calcul au moment du test, en allouant des ressources à un raisonnement perceptif scalable qui explore et synthétise diverses hypothèses visuelles. Par conséquent, malgré son empreinte compacte de 10 milliards de paramètres, STEP3-VL-10B rivalise ou surpasse des modèles 10 à 20 fois plus grands (par exemple, GLM-4.6V-106B, Qwen3-VL-235B) ainsi que les fleurons propriétaires de premier plan comme Gemini 2.5 Pro et Seed-1.5-VL. Offrant des performances de premier ordre, il atteint 92,2 % sur MMBench et 80,11 % sur MMMU, tout en excellant dans le raisonnement complexe avec 94,43 % sur AIME2025 et 75,95 % sur MathVision. Nous publions la suite complète du modèle pour offrir à la communauté une base de référence puissante, efficace et reproductible.
English
We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10times-20times larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL. Delivering best-in-class performance, it records 92.2% on MMBench and 80.11% on MMMU, while excelling in complex reasoning with 94.43% on AIME2025 and 75.95% on MathVision. We release the full model suite to provide the community with a powerful, efficient, and reproducible baseline.
PDF1294January 17, 2026