Passo 3.5 Flash: Abrir Inteligência de Fronteira com 11B Parâmetros Ativos

Resumo

Apresentamos o Step 3.5 Flash, um modelo esparso de Mistura de Especialistas (MoE) que une inteligência agentiva de nível de fronteira e eficiência computacional. Focamos no que mais importa na construção de agentes: raciocínio aguçado e execução rápida e confiável. O Step 3.5 Flash combina uma base de 196 bilhões de parâmetros com apenas 11 bilhões de parâmetros ativos para inferência eficiente. Ele é otimizado com atenção intercalada de janela deslizante/global (3:1) e Predição Multi-Token (MTP-3) para reduzir a latência e o custo de interações agentivas multi-turno. Para atingir inteligência de nível de fronteira, projetamos uma estrutura escalável de aprendizado por reforço que combina sinais verificáveis com feedback de preferência, mantendo-se estável sob treinamento *off-policy* em larga escala, permitindo uma autoaprimoração consistente em matemática, código e uso de ferramentas. O Step 3.5 Flash demonstra desempenho sólido em tarefas de agente, codificação e matemática, alcançando 85,4% no IMO-AnswerBench, 86,4% no LiveCodeBench-v6 (2024.08-2025.05), 88,2% no tau2-Bench, 69,0% no BrowseComp (com gerenciamento de contexto) e 51,0% no Terminal-Bench 2.0, resultados comparáveis a modelos de fronteira como o GPT-5.2 xHigh e o Gemini 3.0 Pro. Ao redefinir a fronteira de eficiência, o Step 3.5 Flash fornece uma base de alta densidade para implantar agentes sofisticados em ambientes industriais do mundo real.

English

We introduce Step 3.5 Flash, a sparse Mixture-of-Experts (MoE) model that bridges frontier-level agentic intelligence and computational efficiency. We focus on what matters most when building agents: sharp reasoning and fast, reliable execution. Step 3.5 Flash pairs a 196B-parameter foundation with 11B active parameters for efficient inference. It is optimized with interleaved 3:1 sliding-window/full attention and Multi-Token Prediction (MTP-3) to reduce the latency and cost of multi-round agentic interactions. To reach frontier-level intelligence, we design a scalable reinforcement learning framework that combines verifiable signals with preference feedback, while remaining stable under large-scale off-policy training, enabling consistent self-improvement across mathematics, code, and tool use. Step 3.5 Flash demonstrates strong performance across agent, coding, and math tasks, achieving 85.4% on IMO-AnswerBench, 86.4% on LiveCodeBench-v6 (2024.08-2025.05), 88.2% on tau2-Bench, 69.0% on BrowseComp (with context management), and 51.0% on Terminal-Bench 2.0, comparable to frontier models such as GPT-5.2 xHigh and Gemini 3.0 Pro. By redefining the efficiency frontier, Step 3.5 Flash provides a high-density foundation for deploying sophisticated agents in real-world industrial environments.