ChatPaper.aiChatPaper

STEP3-VL-10B 기술 보고서

STEP3-VL-10B Technical Report

January 14, 2026
저자: Ailin Huang, Chengyuan Yao, Chunrui Han, Fanqi Wan, Hangyu Guo, Haoran Lv, Hongyu Zhou, Jia Wang, Jian Zhou, Jianjian Sun, Jingcheng Hu, Kangheng Lin, Liang Zhao, Mitt Huang, Song Yuan, Wenwen Qu, Xiangfeng Wang, Yanlin Lai, Yingxiu Zhao, Yinmin Zhang, Yukang Shi, Yuyang Chen, Zejia Weng, Ziyang Meng, Ang Li, Aobo Kong, Bo Dong, Changyi Wan, David Wang, Di Qi, Dingming Li, En Yu, Guopeng Li, Haiquan Yin, Han Zhou, Hanshan Zhang, Haolong Yan, Hebin Zhou, Hongbo Peng, Jiaran Zhang, Jiashu Lv, Jiayi Fu, Jie Cheng, Jie Zhou, Jisheng Yin, Jingjing Xie, Jingwei Wu, Jun Zhang, Junfeng Liu, Kaijun Tan, Kaiwen Yan, Liangyu Chen, Lina Chen, Mingliang Li, Qian Zhao, Quan Sun, Shaoliang Pang, Shengjie Fan, Shijie Shang, Siyuan Zhang, Tianhao You, Wei Ji, Wuxun Xie, Xiaobo Yang, Xiaojie Hou, Xiaoran Jiao, Xiaoxiao Ren, Xiangwen Kong, Xin Huang, Xin Wu, Xing Chen, Xinran Wang, Xuelin Zhang, Yana Wei, Yang Li, Yanming Xu, Yeqing Shen, Yuang Peng, Yue Peng, Yu Zhou, Yusheng Li, Yuxiang Yang, Yuyang Zhang, Zhe Xie, Zhewei Huang, Zhenyi Lu, Zhimin Fan, Zihui Cheng, Daxin Jiang, Qi Han, Xiangyu Zhang, Yibo Zhu, Zheng Ge
cs.AI

초록

STEP3-VL-10B를 소개합니다. 이는 경량 오픈소스 파운데이션 모델로, 컴팩트한 효율성과 최첨단 수준의 멀티모달 인텔리전스 간의 트레이드오프를 재정의하기 위해 설계되었습니다. STEP3-VL-10B는 두 가지 전략적 전환을 통해 구현됩니다. 첫째, 언어 정렬 인지 인코더(Perception Encoder)와 Qwen3-8B 디코더를 통합하여 본질적인 비전-언어 시너지를 구축하는 1.2T 멀티모달 토큰에 대한 통합적이고 완전히 동결 해제된 사전 학습 전략입니다. 둘째, 1,000회 이상의 강화 학습 반복을 특징으로 하는 스케일된 사후 학습 파이프라인입니다. 특히, 병렬 조정 추론(Parallel Coordinated Reasoning, PaCoRe)을 구현하여 테스트 시간 컴퓨팅을 확장하고, 다양한 시각적 가설을 탐구 및 종합하는 확장 가능한 인지 추론에 자원을 할당합니다. 그 결과, 컴팩트한 10B 규모에도 불구하고, STEP3-VL-10B는 10~20배 더 큰 모델들(예: GLM-4.6V-106B, Qwen3-VL-235B) 및 Gemini 2.5 Pro, Seed-1.5-VL과 같은 최상위 독점 플래그십 모델들을 능가하거나 그에 버금가는 성능을 보입니다. 최고 수준의 성능을 제공하며, MMBench에서 92.2%, MMMU에서 80.11%를 기록했고, AIME2025에서 94.43%, MathVision에서 75.95%를 달성하여 복잡한 추론 분야에서도 뛰어난 성과를 보였습니다. 커뮤니티에 강력하고 효율적이며 재현 가능한 기준선을 제공하기 위해 전체 모델 제품군을 공개합니다.
English
We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10times-20times larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL. Delivering best-in-class performance, it records 92.2% on MMBench and 80.11% on MMMU, while excelling in complex reasoning with 94.43% on AIME2025 and 75.95% on MathVision. We release the full model suite to provide the community with a powerful, efficient, and reproducible baseline.
PDF1294January 17, 2026