Servicio eficiente de programas de razonamiento LLM con Certaindex.

Resumen

La rápida evolución de los modelos de lenguaje grandes (LLMs) ha desbloqueado sus capacidades en tareas avanzadas de razonamiento como la resolución de problemas matemáticos, generación de código y análisis legal. Central en este progreso se encuentran los algoritmos de razonamiento en tiempo de inferencia, que perfeccionan las salidas explorando múltiples caminos de solución, a costa de aumentar las demandas computacionales y las latencias de respuesta. Los sistemas de servicio existentes no logran adaptarse a los comportamientos de escala de estos algoritmos o a la variabilidad en la dificultad de las consultas, lo que resulta en un uso ineficiente de recursos y objetivos de latencia no cumplidos. Presentamos Dynasor, un sistema que optimiza la computación en tiempo de inferencia para consultas de razonamiento de LLM. A diferencia de los motores tradicionales, Dynasor rastrea y programa solicitudes dentro de las consultas de razonamiento y utiliza Certaindex, un proxy que mide el progreso estadístico del razonamiento basado en la certeza del modelo, para guiar la asignación de computación de forma dinámica. Dynasor coadapta la programación con el progreso del razonamiento: asigna más computación a consultas difíciles, reduce la computación para las más simples y finaliza temprano las consultas poco prometedoras, equilibrando precisión, latencia y costos. En conjuntos de datos y algoritmos diversos, Dynasor reduce la computación hasta en un 50% en procesamiento por lotes y mantiene tasas de consultas hasta 3.3 veces más altas o tiempos de latencia hasta 4.7 veces más ajustados en servicios en línea.

English

The rapid evolution of large language models (LLMs) has unlocked their capabilities in advanced reasoning tasks like mathematical problem-solving, code generation, and legal analysis. Central to this progress are inference-time reasoning algorithms, which refine outputs by exploring multiple solution paths, at the cost of increasing compute demands and response latencies. Existing serving systems fail to adapt to the scaling behaviors of these algorithms or the varying difficulty of queries, leading to inefficient resource use and unmet latency targets. We present Dynasor, a system that optimizes inference-time compute for LLM reasoning queries. Unlike traditional engines, Dynasor tracks and schedules requests within reasoning queries and uses Certaindex, a proxy that measures statistical reasoning progress based on model certainty, to guide compute allocation dynamically. Dynasor co-adapts scheduling with reasoning progress: it allocates more compute to hard queries, reduces compute for simpler ones, and terminates unpromising queries early, balancing accuracy, latency, and cost. On diverse datasets and algorithms, Dynasor reduces compute by up to 50% in batch processing and sustaining 3.3x higher query rates or 4.7x tighter latency SLOs in online serving.

Servicio eficiente de programas de razonamiento LLM con Certaindex.

Efficiently Serving LLM Reasoning Programs with Certaindex

Resumen

Support