L'étape 3 est ambitieuse mais abordable : Co-conception modèle-système pour un décodage rentable

Résumé

Les grands modèles de langage (LLM) rencontrent une faible efficacité matérielle lors du décodage, en particulier pour les tâches de raisonnement à contexte long. Cet article présente Step-3, un modèle de langage visuel (VLM) de 321 milliards de paramètres, conçu avec une co-conception matérielle-système optimisée pour minimiser les coûts de décodage. Step-3 innove dans deux dimensions clés : (1) Un nouveau mécanisme d'attention par factorisation multi-matrices (MFA) qui réduit significativement la taille du cache KV et les calculs tout en maintenant une expressivité élevée de l'attention, et (2) la dissociation Attention-FFN (AFD), un système d'inférence distribué qui découple les couches d'attention et les réseaux feed-forward (FFN) en sous-systèmes spécialisés. Cette co-conception atteint une efficacité de coût sans précédent : Step-3 réduit significativement les coûts théoriques de décodage par rapport à des modèles comme DeepSeek-V3 et Qwen3 MoE 235B, avec des gains qui s'accentuent pour des contextes plus longs. Step-3 maintient un faible coût tout en activant 38 milliards de paramètres par token (plus que DeepSeek-V3 et Qwen3 MoE 235B), démontrant que l'intensité arithmétique de l'attention alignée sur le matériel, la parcimonie MoE et l'AFD sont critiques pour la rentabilité. Nous effectuons une comparaison directe avec DeepSeek-V3 dans ses scénarios favorables. Notre implémentation sur les GPU Hopper atteint un débit de décodage allant jusqu'à 4 039 tokens par seconde par GPU sous un SLA TPOT de 50 ms (contexte 4K, FP8, sans MTP). Ce chiffre est supérieur aux 2 324 de DeepSeek-V3 dans la même configuration et établit une nouvelle frontière de Pareto pour le décodage des LLM.

English

Large language models (LLMs) face low hardware efficiency during decoding, especially for long-context reasoning tasks. This paper introduces Step-3, a 321B-parameter VLM with hardware-aware model-system co-design optimized for minimizing decoding costs. Step-3 innovates in two key dimensions: (1) A novel Multi-Matrix Factorization Attention (MFA) mechanism that significantly reduces both KV cache size and computation while maintaining high attention expressiveness, and (2) Attention-FFN Disaggregation (AFD), a distributed inference system that decouples attention and Feed-Forward Network (FFN) layers into specialized subsystems. This co-design achieves unprecedented cost efficiency: Step-3 significantly reduces theoretical decoding costs compared with models like DeepSeek-V3 and Qwen3 MoE 235B, with the gains widening at longer context. Step-3 achieves low cost while activating 38B parameters per token (more than DeepSeek-V3 and Qwen3 MoE 235B), demonstrating that hardware-aligned attention arithmetic intensity, MoE sparsity, and AFD are critical to cost-effectiveness. We perform a head-to-head comparison with DeepSeek-V3 in its favorable scenarios. Our implementation on Hopper GPUs achieves a decoding throughput of up to 4,039 tokens per second per GPU under 50ms TPOT SLA (4K context, FP8, no MTP). It is higher than DeepSeek-V3's 2,324 in the same setup and sets a new Pareto frontier for LLM decoding.