Más Allá de la Precisión: Revelando Patrones de Ineficiencia en el Razonamiento Integrado con Herramientas

Resumen

En escenarios reales de Razonamiento Integrado con Herramientas (TIR), donde los LLM entrelazan el razonamiento con llamadas a herramientas externas, una fuente principal de ineficiencia es que dichas llamadas crean pausas entre las solicitudes del LLM y provocan la expulsión de la Caché KV, lo que fuerza su recomputación. Además, las respuestas largas y sin filtrar devueltas por las herramientas externas inflan la Caché KV, por lo que cada paso de decodificación dedica más tiempo a cargar la caché en crecimiento y, en consecuencia, se vuelve progresivamente más lento a medida que aumenta la longitud del contexto. Sin embargo, las métricas de eficiencia existentes, como el recuento de tokens y el número de llamadas a herramientas, no logran capturar la latencia real de la inferencia del modelo. Para abordar esto, presentamos PTE (Equivalentes de Tokens de Prellenado), una métrica de eficiencia TIR consciente del hardware que unifica los costes del razonamiento interno y del uso de herramientas externas, teniendo en cuenta explícitamente la Caché KV no reutilizable y los escenarios de respuestas de herramientas largas. La validación en un entorno industrial de alta concurrencia indica que el PTE se alinea significativamente mejor con la latencia de tiempo real que los recuentos estándar de tokens, manteniendo al mismo tiempo clasificaciones de eficiencia consistentes en diversos perfiles de hardware. Realizamos experimentos exhaustivos en cinco benchmarks de TIR, cuantificamos sus costes PTE e identificamos cuatro patrones de ineficiencia que aparecen en TIR. También descubrimos que las trayectorias con costes PTE más altos tienden a tener una corrección de razonamiento menor, lo que indica que simplemente usar más herramientas no mejora la calidad de la respuesta.

English

In real-world Tool-Integrated Reasoning (TIR) scenarios, where LLMs interleave reasoning with external tool calls, a major source of inefficiency is that the toolcalls create pauses between LLM requests and cause KV-Cache eviction, forcing recomputation. Also, the long, unfiltered response returned by external tools inflates the KV-Cache, so each decode step spends more time loading the growing cache and thus becomes steadily slower as context length increases. However, existing efficiency metrics like token counts and toolcall counts fail to capture the real model inference latency. To address this, we introduce PTE (Prefill Token Equivalents), a hardware-aware TIR-efficiency metric that unifies internal reasoning and external tool-use costs while explicitly accounting for non-reusable KV-Cache and long-tool-response scenarios. Validation in a high-concurrency industrial setting indicates that PTE aligns significantly better with wall-clock latency than standard token counts, while maintaining consistent efficiency rankings across diverse hardware profiles. We conduct extensive experiments across five TIR benchmarks, quantify their PTE costs, and identify four inefficiency patterns that appear in TIR. We also discover that trajectories with higher PTE costs tend to have lower reasoning correctness, indicating that simply using more tools does not improve the quality of the answer.

Más Allá de la Precisión: Revelando Patrones de Ineficiencia en el Razonamiento Integrado con Herramientas

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

Resumen

Support