Paso 3.5 Flash: Inteligencia de Nivel Frontera Abierta con 11B Parámetros Activos

Resumen

Presentamos Step 3.5 Flash, un modelo disperso de Mezcla de Expertos (MoE, por sus siglas en inglés) que conecta la inteligencia agentica de nivel frontera con la eficiencia computacional. Nos centramos en lo que más importa al construir agentes: un razonamiento agudo y una ejecución rápida y confiable. Step 3.5 Flash combina una base de 196.000 millones de parámetros con 11.000 millones de parámetros activos para una inferencia eficiente. Está optimizado con una atención intercalada de ventana deslizante/global en proporción 3:1 y Predicción Multi-Token (MTP-3) para reducir la latencia y el coste de las interacciones agenticas multi-ronda. Para alcanzar una inteligencia de nivel frontera, diseñamos un marco de aprendizaje por refuerzo escalable que combina señales verificables con retroalimentación de preferencias, manteniendo la estabilidad durante el entrenamiento a gran escala fuera de política, lo que permite una mejora constante en matemáticas, código y uso de herramientas. Step 3.5 Flash demuestra un sólido rendimiento en tareas de agentes, programación y matemáticas, logrando un 85,4% en IMO-AnswerBench, un 86,4% en LiveCodeBench-v6 (2024.08-2025.05), un 88,2% en tau2-Bench, un 69,0% en BrowseComp (con gestión de contexto) y un 51,0% en Terminal-Bench 2.0, resultados comparables a modelos frontera como GPT-5.2 xHigh y Gemini 3.0 Pro. Al redefinir la frontera de la eficiencia, Step 3.5 Flash proporciona una base de alta densidad para desplegar agentes sofisticados en entornos industriales del mundo real.

English

We introduce Step 3.5 Flash, a sparse Mixture-of-Experts (MoE) model that bridges frontier-level agentic intelligence and computational efficiency. We focus on what matters most when building agents: sharp reasoning and fast, reliable execution. Step 3.5 Flash pairs a 196B-parameter foundation with 11B active parameters for efficient inference. It is optimized with interleaved 3:1 sliding-window/full attention and Multi-Token Prediction (MTP-3) to reduce the latency and cost of multi-round agentic interactions. To reach frontier-level intelligence, we design a scalable reinforcement learning framework that combines verifiable signals with preference feedback, while remaining stable under large-scale off-policy training, enabling consistent self-improvement across mathematics, code, and tool use. Step 3.5 Flash demonstrates strong performance across agent, coding, and math tasks, achieving 85.4% on IMO-AnswerBench, 86.4% on LiveCodeBench-v6 (2024.08-2025.05), 88.2% on tau2-Bench, 69.0% on BrowseComp (with context management), and 51.0% on Terminal-Bench 2.0, comparable to frontier models such as GPT-5.2 xHigh and Gemini 3.0 Pro. By redefining the efficiency frontier, Step 3.5 Flash provides a high-density foundation for deploying sophisticated agents in real-world industrial environments.