STEP3-VL-10B Technisch Rapport

Samenvatting

Wij presenteren STEP3-VL-10B, een lichtgewicht open-source foundationmodel dat is ontworpen om de afweging tussen compacte efficiëntie en grensverleggende multimodale intelligentie te herdefiniëren. STEP3-VL-10B is gerealiseerd door middel van twee strategische verschuivingen: ten eerste, een uniforme, volledig ontvroren pre-trainingsstrategie op 1,2T multimodale tokens die een taalkundig uitgelijnde Perception Encoder integreert met een Qwen3-8B-decoder om een intrinsieke visie-taal-synergie tot stand te brengen; en ten tweede, een geschaalde post-trainingpijplijn met meer dan 1k iteraties van reinforcement learning. Cruciaal is dat wij Parallel Coordinated Reasoning (PaCoRe) implementeren om de rekenkracht tijdens het testen op te schalen, waarbij middelen worden toegewezen aan schaalbare perceptuele redenering die diverse visuele hypotheses verkent en synthetiseert. Hierdoor rivaliseert of overtreft STEP3-VL-10B, ondanks zijn compacte omvang van 10B, modellen die 10 tot 20 keer groter zijn (bijv. GLM-4.6V-106B, Qwen3-VL-235B) en toonaangevende propriëtaire vlaggenschepen zoals Gemini 2.5 Pro en Seed-1.5-VL. Het levert toonaangevende prestaties met een score van 92,2% op MMBench en 80,11% op MMMU, en blinkt uit in complexe redenering met 94,43% op AIME2025 en 75,95% op MathVision. Wij geven de volledige modelsuite vrij om de gemeenschap een krachtige, efficiënte en reproduceerbare baseline te bieden.

English

We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10times-20times larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL. Delivering best-in-class performance, it records 92.2% on MMBench and 80.11% on MMMU, while excelling in complex reasoning with 94.43% on AIME2025 and 75.95% on MathVision. We release the full model suite to provide the community with a powerful, efficient, and reproducible baseline.

STEP3-VL-10B Technisch Rapport

STEP3-VL-10B Technical Report

Samenvatting

Support