Il Passo 3 è Ampio ma Accessibile: Co-progettazione Modello-Sistema per un Decodificazione Efficace in Termini di Costi

Abstract

I grandi modelli linguistici (LLM) affrontano una bassa efficienza hardware durante la decodifica, specialmente per compiti di ragionamento a contesto lungo. Questo articolo introduce Step-3, un modello VLM da 321 miliardi di parametri con una co-progettazione hardware-aware ottimizzata per minimizzare i costi di decodifica. Step-3 innova in due dimensioni chiave: (1) Un nuovo meccanismo di attenzione a fattorizzazione multi-matrice (MFA) che riduce significativamente sia la dimensione della cache KV che il calcolo, mantenendo un'elevata espressività dell'attenzione, e (2) la Disaggregazione Attenzione-FFN (AFD), un sistema di inferenza distribuito che separa i livelli di attenzione e la rete Feed-Forward (FFN) in sottosistemi specializzati. Questa co-progettazione raggiunge un'efficienza di costo senza precedenti: Step-3 riduce significativamente i costi teorici di decodifica rispetto a modelli come DeepSeek-V3 e Qwen3 MoE 235B, con guadagni che aumentano con contesti più lunghi. Step-3 ottiene bassi costi attivando 38 miliardi di parametri per token (più di DeepSeek-V3 e Qwen3 MoE 235B), dimostrando che l'intensità aritmetica dell'attenzione allineata all'hardware, la sparsità MoE e l'AFD sono critici per la convenienza. Eseguiamo un confronto diretto con DeepSeek-V3 nei suoi scenari favorevoli. La nostra implementazione su GPU Hopper raggiunge una velocità di decodifica fino a 4.039 token al secondo per GPU sotto un SLA TPOT di 50ms (contesto 4K, FP8, no MTP). È superiore ai 2.324 di DeepSeek-V3 nella stessa configurazione e stabilisce una nuova frontiera di Pareto per la decodifica LLM.

English

Large language models (LLMs) face low hardware efficiency during decoding, especially for long-context reasoning tasks. This paper introduces Step-3, a 321B-parameter VLM with hardware-aware model-system co-design optimized for minimizing decoding costs. Step-3 innovates in two key dimensions: (1) A novel Multi-Matrix Factorization Attention (MFA) mechanism that significantly reduces both KV cache size and computation while maintaining high attention expressiveness, and (2) Attention-FFN Disaggregation (AFD), a distributed inference system that decouples attention and Feed-Forward Network (FFN) layers into specialized subsystems. This co-design achieves unprecedented cost efficiency: Step-3 significantly reduces theoretical decoding costs compared with models like DeepSeek-V3 and Qwen3 MoE 235B, with the gains widening at longer context. Step-3 achieves low cost while activating 38B parameters per token (more than DeepSeek-V3 and Qwen3 MoE 235B), demonstrating that hardware-aligned attention arithmetic intensity, MoE sparsity, and AFD are critical to cost-effectiveness. We perform a head-to-head comparison with DeepSeek-V3 in its favorable scenarios. Our implementation on Hopper GPUs achieves a decoding throughput of up to 4,039 tokens per second per GPU under 50ms TPOT SLA (4K context, FP8, no MTP). It is higher than DeepSeek-V3's 2,324 in the same setup and sets a new Pareto frontier for LLM decoding.

Il Passo 3 è Ampio ma Accessibile: Co-progettazione Modello-Sistema per un Decodificazione Efficace in Termini di Costi

Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding

Abstract

Support