Mix-Quant: Prellenado cuantizado, decodificación precisa para LLMs agentivos

Resumen

Los agentes basados en modelos de lenguaje de gran escala (LLM) han surgido recientemente como un paradigma poderoso para resolver tareas complejas mediante planificación, uso de herramientas, recuperación de memoria e interacción en múltiples pasos. Sin embargo, estos flujos de trabajo propios de agentes a menudo introducen una sobrecarga sustancial en el lado de entrada, lo que convierte a la etapa de precarga, intensiva en cómputo, en un cuello de botella clave en la inferencia de contexto largo y múltiples turnos. En este trabajo, proponemos Mix-Quant, un marco de cuantización simple y eficaz que tiene en cuenta las fases para una inferencia rápida en agentes. Primero investigamos la cuantización FP4 en flujos de trabajo de LLM con agentes y observamos que cuantizar todo el proceso de inferencia puede provocar una degradación significativa del rendimiento. Por el contrario, la etapa de precarga exhibe una redundancia de cuantización considerable y, por lo tanto, puede cuantizarse con una pérdida mínima de precisión, a pesar de ser la fuente dominante de cómputo. Basándonos en esta observación, aplicamos la cuantización NVFP4 de alto rendimiento a la fase de precarga, mientras preservamos la precisión BF16 para el decodificado. Al desvincular la aceleración de la precarga de la calidad del decodificado, Mix-Quant combina una cuantización algorítmica consciente de la fase con una ejecución NVFP4 eficiente en hardware para aliviar el cuello de botella de inferencia en agentes LLM. Experimentos exhaustivos en benchmarks de contexto largo y orientados a agentes demuestran que Mix-Quant preserva en gran medida el rendimiento de la tarea, al tiempo que ofrece mejoras significativas en eficiencia, logrando una aceleración de hasta 3 veces durante la precarga.

English

LLM agents have recently emerged as a powerful paradigm for solving complex tasks through planning, tool use, memory retrieval, and multi-step interaction. However, these agentic workflows often introduce substantial input-side overhead, making the compute-intensive prefilling stage a key bottleneck in long-context, multi-turn inference. In this work, we propose Mix-Quant, a simple and effective phase-aware quantization framework for fast agentic inference. We first investigate FP4 quantization in agentic LLM workflows and observe that quantizing the entire inference process can incur significant performance degradation. In contrast, the prefilling stage exhibits substantial quantization redundancy and can therefore be quantized with minimal accuracy loss, despite being the dominant source of computation. Based on this insight, we apply high-throughput NVFP4 quantization to the prefilling phase while preserving BF16 precision for decoding. By decoupling prefilling acceleration from decoding quality, Mix-Quant combines phase-aware algorithmic quantization with hardware-efficient NVFP4 execution to alleviate the inference bottleneck in LLM agents. Extensive experiments across long-context and agentic benchmarks demonstrate that Mix-Quant largely preserves task performance while delivering significant efficiency improvements, achieving up to a 3x speedup during prefilling.