정확도를 넘어서: 도구 통합 추론의 비효율성 패턴 탐구
Beyond Accuracy: Unveiling Inefficiency Patterns in Tool-Integrated Reasoning
April 7, 2026
저자: Qisheng Su, Shiting Huang, Zhen Fang, Ziyan Chen, Zehui Chen, Feng Zhao
cs.AI
초록
실제 도구 통합 추론(TIR) 시나리오에서는 LLM이 추론과 외부 도구 호출을 교차적으로 수행하는 과정에서 도구 호출로 인해 LLM 요청 사이에 지연이 발생하고 KV 캐시가 제거되어 재계산을 강제하는 것이 비효율성의 주요 원인입니다. 또한 외부 도구가 반환하는 길고 필터링되지 않은 응답은 KV 캐시를 팽창시켜 각 디코딩 단계에서 점점 증가하는 캐시를 로드하는 데 더 많은 시간이 소요되므로 컨텍스트 길이가 증가함에 따라 지속적으로 속도가 느려집니다. 그러나 토큰 수나 도구 호출 수와 같은 기존 효율성 지표는 실제 모델 추론 지연 시간을 제대로 반영하지 못합니다. 이를 해결하기 위해 우리는 PTE(Prefill Token Equivalents)를 제안합니다. PTE는 하드웨어를 고려한 TIR 효율성 지표로, 내부 추론과 외부 도구 사용 비용을 통합하면서 재사용 불가능한 KV 캐시 및 긴 도구 응답 시나리오를 명시적으로 고려합니다. 높은 동시성을 요구하는 산업 환경에서의 검증 결과, PTE가 표준 토큰 수보다 실제 경과 시간과 훨씬 더 잘 부합하며 다양한 하드웨어 프로파일에서 일관된 효율성 순위를 유지하는 것으로 나타났습니다. 우리는 5개의 TIR 벤치마크에 대해 광범위한 실험을 수행하고 각각의 PTE 비용을 정량화하며 TIR에서 나타나는 4가지 비효율성 패턴을 식별했습니다. 또한 PTE 비용이 높은 추론 경로일수록 추론 정확도가 낮아지는 경향을 발견했는데, 이는 단순히 더 많은 도구를 사용한다고 해서 답변의 질이 향상되지 않음을 시사합니다.
English
In real-world Tool-Integrated Reasoning (TIR) scenarios, where LLMs interleave reasoning with external tool calls, a major source of inefficiency is that the toolcalls create pauses between LLM requests and cause KV-Cache eviction, forcing recomputation. Also, the long, unfiltered response returned by external tools inflates the KV-Cache, so each decode step spends more time loading the growing cache and thus becomes steadily slower as context length increases. However, existing efficiency metrics like token counts and toolcall counts fail to capture the real model inference latency. To address this, we introduce PTE (Prefill Token Equivalents), a hardware-aware TIR-efficiency metric that unifies internal reasoning and external tool-use costs while explicitly accounting for non-reusable KV-Cache and long-tool-response scenarios. Validation in a high-concurrency industrial setting indicates that PTE aligns significantly better with wall-clock latency than standard token counts, while maintaining consistent efficiency rankings across diverse hardware profiles. We conduct extensive experiments across five TIR benchmarks, quantify their PTE costs, and identify four inefficiency patterns that appear in TIR. We also discover that trajectories with higher PTE costs tend to have lower reasoning correctness, indicating that simply using more tools does not improve the quality of the answer.