Au-delà de la précision : Révéler les schémas d'inefficacité dans le raisonnement assisté par outils

Résumé

Dans les scénarios réels de raisonnement intégrant des outils (TIR), où les LLM entrelacent raisonnement et appels à des outils externes, une source majeure d'inefficacité est que ces appels créent des pauses entre les requêtes du LLM et provoquent l'éviction du cache KV, forçant un recalcul. De plus, la longue réponse non filtrée renvoyée par les outils externes gonfle le cache KV, de sorte que chaque étape de décodage passe plus de temps à charger le cache croissant et devient donc progressivement plus lente à mesure que la longueur du contexte augmente. Cependant, les métriques d'efficacité existantes, comme le nombre de tokens et le nombre d'appels d'outils, ne parviennent pas à capturer la latence réelle d'inférence du modèle. Pour résoudre ce problème, nous introduisons les ETP (Équivalents en Tokens de Préremplissage), une métrique d'efficacité TIR prenant en compte le matériel, qui unifie les coûts du raisonnement interne et de l'utilisation d'outils externes tout en tenant compte explicitement du cache KV non réutilisable et des scénarios de réponses longues des outils. La validation dans un contexte industriel à haute concurrence indique que les ETP correspondent significativement mieux à la latence réelle mesurée que les décomptes standards de tokens, tout en maintenant des classements d'efficacité cohérents sur divers profils matériels. Nous menons des expériences approfondies sur cinq benchmarks TIR, quantifions leurs coûts en ETP et identifions quatre schémas d'inefficacité qui apparaissent dans le TIR. Nous découvrons également que les trajectoires avec des coûts ETP plus élevés ont tendance à avoir une exactitude de raisonnement plus faible, ce qui indique qu'utiliser simplement plus d'outils n'améliore pas la qualité de la réponse.

English

In real-world Tool-Integrated Reasoning (TIR) scenarios, where LLMs interleave reasoning with external tool calls, a major source of inefficiency is that the toolcalls create pauses between LLM requests and cause KV-Cache eviction, forcing recomputation. Also, the long, unfiltered response returned by external tools inflates the KV-Cache, so each decode step spends more time loading the growing cache and thus becomes steadily slower as context length increases. However, existing efficiency metrics like token counts and toolcall counts fail to capture the real model inference latency. To address this, we introduce PTE (Prefill Token Equivalents), a hardware-aware TIR-efficiency metric that unifies internal reasoning and external tool-use costs while explicitly accounting for non-reusable KV-Cache and long-tool-response scenarios. Validation in a high-concurrency industrial setting indicates that PTE aligns significantly better with wall-clock latency than standard token counts, while maintaining consistent efficiency rankings across diverse hardware profiles. We conduct extensive experiments across five TIR benchmarks, quantify their PTE costs, and identify four inefficiency patterns that appear in TIR. We also discover that trajectories with higher PTE costs tend to have lower reasoning correctness, indicating that simply using more tools does not improve the quality of the answer.

Au-delà de la précision : Révéler les schémas d'inefficacité dans le raisonnement assisté par outils

Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning

Résumé

Support