ChatPaper.aiChatPaper

STEP3-VL-10B 技術レポート

STEP3-VL-10B Technical Report

January 14, 2026
著者: Ailin Huang, Chengyuan Yao, Chunrui Han, Fanqi Wan, Hangyu Guo, Haoran Lv, Hongyu Zhou, Jia Wang, Jian Zhou, Jianjian Sun, Jingcheng Hu, Kangheng Lin, Liang Zhao, Mitt Huang, Song Yuan, Wenwen Qu, Xiangfeng Wang, Yanlin Lai, Yingxiu Zhao, Yinmin Zhang, Yukang Shi, Yuyang Chen, Zejia Weng, Ziyang Meng, Ang Li, Aobo Kong, Bo Dong, Changyi Wan, David Wang, Di Qi, Dingming Li, En Yu, Guopeng Li, Haiquan Yin, Han Zhou, Hanshan Zhang, Haolong Yan, Hebin Zhou, Hongbo Peng, Jiaran Zhang, Jiashu Lv, Jiayi Fu, Jie Cheng, Jie Zhou, Jisheng Yin, Jingjing Xie, Jingwei Wu, Jun Zhang, Junfeng Liu, Kaijun Tan, Kaiwen Yan, Liangyu Chen, Lina Chen, Mingliang Li, Qian Zhao, Quan Sun, Shaoliang Pang, Shengjie Fan, Shijie Shang, Siyuan Zhang, Tianhao You, Wei Ji, Wuxun Xie, Xiaobo Yang, Xiaojie Hou, Xiaoran Jiao, Xiaoxiao Ren, Xiangwen Kong, Xin Huang, Xin Wu, Xing Chen, Xinran Wang, Xuelin Zhang, Yana Wei, Yang Li, Yanming Xu, Yeqing Shen, Yuang Peng, Yue Peng, Yu Zhou, Yusheng Li, Yuxiang Yang, Yuyang Zhang, Zhe Xie, Zhewei Huang, Zhenyi Lu, Zhimin Fan, Zihui Cheng, Daxin Jiang, Qi Han, Xiangyu Zhang, Yibo Zhu, Zheng Ge
cs.AI

要旨

我々はSTEP3-VL-10Bを発表します。これは、コンパクトな効率性と最先端のマルチモーダル知能のトレードオフを再定義するために設計された軽量オープンソース基盤モデルです。STEP3-VL-10Bは、2つの戦略的転換によって実現されました。第一に、1.2Tのマルチモーダルトークンに対する統一された完全凍結解除の事前学習戦略により、言語整合型知覚エンコーダをQwen3-8Bデコーダと統合し、本質的な視覚言語連携を確立します。第二に、1,000回以上の強化学習反復を特徴とするスケーリングされた事後学習パイプラインを採用しています。特に重要なのは、テスト時の計算リソースをスケーリングするために並列協調推論(PaCoRe)を実装し、多様な視覚的仮説を探索・統合するスケーラブルな知覚推論にリソースを割り当てている点です。その結果、コンパクトな10Bパラメータ規模にもかかわらず、STEP3-VL-10Bは10~20倍大規模なモデル(GLM-4.6V-106B、Qwen3-VL-235Bなど)や、Gemini 2.5 ProやSeed-1.5-VLといった最高峰のプロプライエタリモデルに匹敵あるいは凌駕する性能を発揮します。MMBenchでは92.2%、MMMUでは80.11%という最高水準の性能を記録し、複雑な推論タスクではAIME2025で94.43%、MathVisionで75.95%という優れた成績を収めています。我々は完全なモデルスイートを公開し、強力で効率的、かつ再現性の高いベースラインをコミュニティに提供します。
English
We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10times-20times larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL. Delivering best-in-class performance, it records 92.2% on MMBench and 80.11% on MMMU, while excelling in complex reasoning with 94.43% on AIME2025 and 75.95% on MathVision. We release the full model suite to provide the community with a powerful, efficient, and reproducible baseline.
PDF1294January 17, 2026