Relatório Técnico do STEP3-VL-10B

Resumo

Apresentamos o STEP3-VL-10B, um modelo de base leve e de código aberto projetado para redefinir o equilíbrio entre eficiência compacta e inteligência multimodal de ponta. O STEP3-VL-10B é concretizado através de duas mudanças estratégicas: primeiro, uma estratégia unificada e totalmente descongelada de pré-treinamento em 1,2 trilhão de tokens multimodais que integra um Codificador de Percepção alinhado linguisticamente com um decodificador Qwen3-8B para estabelecer uma sinergia intrínseca visão-linguagem; e segundo, um pipeline escalonado de pós-treinamento que inclui mais de 1.000 iterações de aprendizado por reforço. Crucialmente, implementamos o Raciocínio Coordenado Paralelo (PaCoRe) para escalar a computação em tempo de teste, alocando recursos para um raciocínio perceptual escalável que explora e sintetiza diversas hipóteses visuais. Consequentemente, apesar de sua pegada compacta de 10B, o STEP3-VL-10B rivaliza ou supera modelos 10 a 20 vezes maiores (por exemplo, GLM-4.6V-106B, Qwen3-VL-235B) e os principais modelos proprietários de elite, como o Gemini 2.5 Pro e o Seed-1.5-VL. Oferecendo um desempenho de classe mundial, ele registra 92,2% no MMBench e 80,11% no MMMU, enquanto se destaca no raciocínio complexo com 94,43% no AIME2025 e 75,95% no MathVision. Disponibilizamos o conjunto completo do modelo para fornecer à comunidade uma base de referência poderosa, eficiente e reproduzível.

English

We present STEP3-VL-10B, a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. STEP3-VL-10B is realized through two strategic shifts: first, a unified, fully unfrozen pre-training strategy on 1.2T multimodal tokens that integrates a language-aligned Perception Encoder with a Qwen3-8B decoder to establish intrinsic vision-language synergy; and second, a scaled post-training pipeline featuring over 1k iterations of reinforcement learning. Crucially, we implement Parallel Coordinated Reasoning (PaCoRe) to scale test-time compute, allocating resources to scalable perceptual reasoning that explores and synthesizes diverse visual hypotheses. Consequently, despite its compact 10B footprint, STEP3-VL-10B rivals or surpasses models 10times-20times larger (e.g., GLM-4.6V-106B, Qwen3-VL-235B) and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL. Delivering best-in-class performance, it records 92.2% on MMBench and 80.11% on MMMU, while excelling in complex reasoning with 94.43% on AIME2025 and 75.95% on MathVision. We release the full model suite to provide the community with a powerful, efficient, and reproducible baseline.