Servicio eficiente de programas de razonamiento LLM con Certaindex.
Efficiently Serving LLM Reasoning Programs with Certaindex
December 30, 2024
Autores: Yichao Fu, Junda Chen, Siqi Zhu, Zheyu Fu, Zhongdongming Dai, Aurick Qiao, Hao Zhang
cs.AI
Resumen
La rápida evolución de los modelos de lenguaje grandes (LLMs) ha desbloqueado sus capacidades en tareas avanzadas de razonamiento como la resolución de problemas matemáticos, generación de código y análisis legal. Central en este progreso se encuentran los algoritmos de razonamiento en tiempo de inferencia, que perfeccionan las salidas explorando múltiples caminos de solución, a costa de aumentar las demandas computacionales y las latencias de respuesta. Los sistemas de servicio existentes no logran adaptarse a los comportamientos de escala de estos algoritmos o a la variabilidad en la dificultad de las consultas, lo que resulta en un uso ineficiente de recursos y objetivos de latencia no cumplidos.
Presentamos Dynasor, un sistema que optimiza la computación en tiempo de inferencia para consultas de razonamiento de LLM. A diferencia de los motores tradicionales, Dynasor rastrea y programa solicitudes dentro de las consultas de razonamiento y utiliza Certaindex, un proxy que mide el progreso estadístico del razonamiento basado en la certeza del modelo, para guiar la asignación de computación de forma dinámica. Dynasor coadapta la programación con el progreso del razonamiento: asigna más computación a consultas difíciles, reduce la computación para las más simples y finaliza temprano las consultas poco prometedoras, equilibrando precisión, latencia y costos. En conjuntos de datos y algoritmos diversos, Dynasor reduce la computación hasta en un 50% en procesamiento por lotes y mantiene tasas de consultas hasta 3.3 veces más altas o tiempos de latencia hasta 4.7 veces más ajustados en servicios en línea.
English
The rapid evolution of large language models (LLMs) has unlocked their
capabilities in advanced reasoning tasks like mathematical problem-solving,
code generation, and legal analysis. Central to this progress are
inference-time reasoning algorithms, which refine outputs by exploring multiple
solution paths, at the cost of increasing compute demands and response
latencies. Existing serving systems fail to adapt to the scaling behaviors of
these algorithms or the varying difficulty of queries, leading to inefficient
resource use and unmet latency targets.
We present Dynasor, a system that optimizes inference-time compute for LLM
reasoning queries. Unlike traditional engines, Dynasor tracks and schedules
requests within reasoning queries and uses Certaindex, a proxy that measures
statistical reasoning progress based on model certainty, to guide compute
allocation dynamically. Dynasor co-adapts scheduling with reasoning progress:
it allocates more compute to hard queries, reduces compute for simpler ones,
and terminates unpromising queries early, balancing accuracy, latency, and
cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50%
in batch processing and sustaining 3.3x higher query rates or 4.7x tighter
latency SLOs in online serving.Summary
AI-Generated Summary