Rapporto Tecnico STEP3-VL-10B

Abstract

Presentiamo STEP3-VL-10B, un modello fondante open-source e leggero progettato per ridefinire il compromesso tra efficienza compatta e intelligenza multimodale di livello avanzato. STEP3-VL-10B è realizzato attraverso due cambiamenti strategici: primo, una strategia di pre-addestramento unificata e completamente sbloccata su 1,2T di token multimodali che integra un Perception Encoder allineato linguisticamente con un decoder Qwen3-8B per stabilire una sinergia intrinseca visione-linguaggio; e secondo, una pipeline di post-addestramento scalata che include oltre 1.000 iterazioni di apprendimento per rinforzo. Fondamentalmente, implementiamo il Ragionamento Coordinato Parallelo (PaCoRe) per scalare il calcolo al momento del test, allocando le risorse a un ragionamento percettivo scalabile che esplora e sintetizza diverse ipotesi visive. Di conseguenza, nonostante la sua impronta compatta di 10B, STEP3-VL-10B rivaleggia o supera modelli da 10 a 20 volte più grandi (ad esempio, GLM-4.6V-106B, Qwen3-VL-235B) e i migliori modelli proprietari di punta come Gemini 2.5 Pro e Seed-1.5-VL. Offrendo prestazioni di prim'ordine, registra il 92,2% su MMBench e l'80,11% su MMMU, eccellendo inoltre nel ragionamento complesso con il 94,43% su AIME2025 e il 75,95% su MathVision. Rilasciamo la suite completa del modello per fornire alla comunità una baseline potente, efficiente e riproducibile.

English

We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10times-20times larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL. Delivering best-in-class performance, it records 92.2% on MMBench and 80.11% on MMMU, while excelling in complex reasoning with 94.43% on AIME2025 and 75.95% on MathVision. We release the full model suite to provide the community with a powerful, efficient, and reproducible baseline.

Rapporto Tecnico STEP3-VL-10B

STEP3-VL-10B Technical Report

Abstract

Support