Mix-Quant : préremplissage quantifié, décodage précis pour les LLMs agentiques

Résumé

Les agents LLM ont récemment émergé comme un paradigme puissant pour résoudre des tâches complexes grâce à la planification, l'utilisation d'outils, la récupération mémoire et l'interaction multi-étapes. Cependant, ces flux de travail agentiques introduisent souvent une surcharge substantielle côté entrée, faisant de la phase de préremplissage, intensive en calcul, un goulot d'étranglement clé dans l'inférence à long contexte et à plusieurs tours. Dans ce travail, nous proposons Mix-Quant, un cadre de quantification simple et efficace, conscient de la phase, pour une inférence agentique rapide. Nous examinons d'abord la quantification FP4 dans les flux de travail agentiques des LLM et observons que quantifier l'ensemble du processus d'inférence peut entraîner une dégradation significative des performances. En revanche, la phase de préremplissage présente une redondance de quantification substantielle et peut donc être quantifiée avec une perte de précision minimale, bien qu'elle soit la source dominante de calcul. Sur la base de cette observation, nous appliquons la quantification NVFP4 à haut débit à la phase de préremplissage tout en conservant la précision BF16 pour le décodage. En dissociant l'accélération du préremplissage de la qualité du décodage, Mix-Quant combine une quantification algorithmique consciente de la phase avec une exécution NVFP4 efficace sur le plan matériel pour atténuer le goulot d'étranglement de l'inférence dans les agents LLM. Des expériences approfondies sur des benchmarks à long contexte et agentiques démontrent que Mix-Quant préserve largement les performances des tâches tout en offrant des améliorations significatives de l'efficacité, atteignant jusqu'à 3 fois d'accélération lors du préremplissage.

English

LLM agents have recently emerged as a powerful paradigm for solving complex tasks through planning, tool use, memory retrieval, and multi-step interaction. However, these agentic workflows often introduce substantial input-side overhead, making the compute-intensive prefilling stage a key bottleneck in long-context, multi-turn inference. In this work, we propose Mix-Quant, a simple and effective phase-aware quantization framework for fast agentic inference. We first investigate FP4 quantization in agentic LLM workflows and observe that quantizing the entire inference process can incur significant performance degradation. In contrast, the prefilling stage exhibits substantial quantization redundancy and can therefore be quantized with minimal accuracy loss, despite being the dominant source of computation. Based on this insight, we apply high-throughput NVFP4 quantization to the prefilling phase while preserving BF16 precision for decoding. By decoupling prefilling acceleration from decoding quality, Mix-Quant combines phase-aware algorithmic quantization with hardware-efficient NVFP4 execution to alleviate the inference bottleneck in LLM agents. Extensive experiments across long-context and agentic benchmarks demonstrate that Mix-Quant largely preserves task performance while delivering significant efficiency improvements, achieving up to a 3x speedup during prefilling.