Paso 3: Grande pero Asequible: Co-diseño de Sistemas Modelo para la Decodificación Rentable

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) enfrentan una baja eficiencia de hardware durante la decodificación, especialmente en tareas de razonamiento de contexto largo. Este artículo presenta Step-3, un modelo de lenguaje visual (VLM) de 321 mil millones de parámetros con un co-diseño modelo-sistema optimizado para minimizar los costos de decodificación. Step-3 innova en dos dimensiones clave: (1) Un nuevo mecanismo de Atención de Factorización Multi-Matriz (MFA) que reduce significativamente tanto el tamaño de la caché KV como el cómputo, manteniendo una alta expresividad en la atención, y (2) la Desagregación Atención-FFN (AFD), un sistema de inferencia distribuido que desacopla las capas de atención y la Red Feed-Forward (FFN) en subsistemas especializados. Este co-diseño logra una eficiencia de costos sin precedentes: Step-3 reduce significativamente los costos teóricos de decodificación en comparación con modelos como DeepSeek-V3 y Qwen3 MoE 235B, con ganancias que aumentan en contextos más largos. Step-3 alcanza un bajo costo mientras activa 38 mil millones de parámetros por token (más que DeepSeek-V3 y Qwen3 MoE 235B), demostrando que la intensidad aritmética de atención alineada con el hardware, la dispersión de MoE y la AFD son críticas para la rentabilidad. Realizamos una comparación directa con DeepSeek-V3 en sus escenarios favorables. Nuestra implementación en GPUs Hopper alcanza un rendimiento de decodificación de hasta 4,039 tokens por segundo por GPU bajo un SLA de 50ms TPOT (contexto de 4K, FP8, sin MTP). Esto es superior a los 2,324 de DeepSeek-V3 en la misma configuración y establece una nueva frontera de Pareto para la decodificación de LLMs.

English

Large language models (LLMs) face low hardware efficiency during decoding, especially for long-context reasoning tasks. This paper introduces Step-3, a 321B-parameter VLM with hardware-aware model-system co-design optimized for minimizing decoding costs. Step-3 innovates in two key dimensions: (1) A novel Multi-Matrix Factorization Attention (MFA) mechanism that significantly reduces both KV cache size and computation while maintaining high attention expressiveness, and (2) Attention-FFN Disaggregation (AFD), a distributed inference system that decouples attention and Feed-Forward Network (FFN) layers into specialized subsystems. This co-design achieves unprecedented cost efficiency: Step-3 significantly reduces theoretical decoding costs compared with models like DeepSeek-V3 and Qwen3 MoE 235B, with the gains widening at longer context. Step-3 achieves low cost while activating 38B parameters per token (more than DeepSeek-V3 and Qwen3 MoE 235B), demonstrating that hardware-aligned attention arithmetic intensity, MoE sparsity, and AFD are critical to cost-effectiveness. We perform a head-to-head comparison with DeepSeek-V3 in its favorable scenarios. Our implementation on Hopper GPUs achieves a decoding throughput of up to 4,039 tokens per second per GPU under 50ms TPOT SLA (4K context, FP8, no MTP). It is higher than DeepSeek-V3's 2,324 in the same setup and sets a new Pareto frontier for LLM decoding.