Шаг 3: Масштабный, но доступный — совместное проектирование модели и системы для экономически эффективного декодирования

Аннотация

Крупные языковые модели (LLM) сталкиваются с низкой аппаратной эффективностью при декодировании, особенно в задачах, требующих длительного контекста. В данной статье представлена модель Step-3, VLM с 321 миллиардом параметров, разработанная с учетом аппаратного обеспечения и оптимизированная для минимизации затрат на декодирование. Step-3 предлагает инновации в двух ключевых направлениях: (1) новый механизм Multi-Matrix Factorization Attention (MFA), который значительно сокращает размер кэша ключей и значений (KV) и объем вычислений, сохраняя при этом высокую выразительность внимания, и (2) Attention-FFN Disaggregation (AFD), распределенная система вывода, которая разделяет слои внимания и Feed-Forward Network (FFN) на специализированные подсистемы. Этот совместный дизайн обеспечивает беспрецедентную экономическую эффективность: Step-3 значительно снижает теоретические затраты на декодирование по сравнению с моделями, такими как DeepSeek-V3 и Qwen3 MoE 235B, причем преимущества усиливаются при увеличении длины контекста. Step-3 достигает низких затрат, активируя 38 миллиардов параметров на токен (больше, чем DeepSeek-V3 и Qwen3 MoE 235B), демонстрируя, что аппаратно-ориентированная интенсивность вычислений внимания, разреженность MoE и AFD критически важны для экономической эффективности. Мы проводим прямое сравнение с DeepSeek-V3 в благоприятных для него сценариях. Наша реализация на GPU Hopper достигает пропускной способности декодирования до 4 039 токенов в секунду на GPU при SLA TPOT 50 мс (контекст 4K, FP8, без MTP). Это выше, чем 2 324 у DeepSeek-V3 в аналогичных условиях, и устанавливает новый Парето-фронт для декодирования LLM.

English

Large language models (LLMs) face low hardware efficiency during decoding, especially for long-context reasoning tasks. This paper introduces Step-3, a 321B-parameter VLM with hardware-aware model-system co-design optimized for minimizing decoding costs. Step-3 innovates in two key dimensions: (1) A novel Multi-Matrix Factorization Attention (MFA) mechanism that significantly reduces both KV cache size and computation while maintaining high attention expressiveness, and (2) Attention-FFN Disaggregation (AFD), a distributed inference system that decouples attention and Feed-Forward Network (FFN) layers into specialized subsystems. This co-design achieves unprecedented cost efficiency: Step-3 significantly reduces theoretical decoding costs compared with models like DeepSeek-V3 and Qwen3 MoE 235B, with the gains widening at longer context. Step-3 achieves low cost while activating 38B parameters per token (more than DeepSeek-V3 and Qwen3 MoE 235B), demonstrating that hardware-aligned attention arithmetic intensity, MoE sparsity, and AFD are critical to cost-effectiveness. We perform a head-to-head comparison with DeepSeek-V3 in its favorable scenarios. Our implementation on Hopper GPUs achieves a decoding throughput of up to 4,039 tokens per second per GPU under 50ms TPOT SLA (4K context, FP8, no MTP). It is higher than DeepSeek-V3's 2,324 in the same setup and sets a new Pareto frontier for LLM decoding.

Шаг 3: Масштабный, но доступный — совместное проектирование модели и системы для экономически эффективного декодирования

Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Аннотация

Support