적게 지출하고 더 합리적으로 추론하기: LLM 에이전트를 위한 예산 인식 가치 트리 탐색
Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents
March 13, 2026
저자: Yushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li
cs.AI
초록
테스트 타임 스케일링은 LLM 에이전트 신뢰성 향상을 위한 주요 패러다임으로 자리 잡았으나, 기존 접근법은 컴퓨팅 자원을 풍부한 것으로 간주하여 에이전트가 중복 단계나 막다른 궤적에 토큰 및 도구 예산을 소진하도록 방치합니다. 기존의 예산 인식 방법들은 고비용의 미세 조정을 요구하거나, 실행 중간에 개입할 수 없는 조악한 궤적 수준의 휴리스틱에 의존합니다. 우리는 단일 LLM 백본 내에서 단계별 가치 추정을 통해 다중 홉 추론을 동적 탐색 트리로 모델링하는 학습 불필요형 추론 시점 프레임워크인 예산 인식 가치 트리(BAVT)를 제안합니다. 또 다른 핵심 혁신은 잔여 자원 비율을 노드 가치에 대한 자연스러운 스케일링 지수로 활용하는 예산 조건부 노드 선택 메커니즘으로, 예산이 고갈됨에 따라 광범위한 탐색에서 탐욕적 활용으로의 원칙적이고 매개변수 불필요한 전환을 제공합니다. LLM 자기 평가의 잘 알려진 과신 문제를 해결하기 위해 BAVT는 절대적 상태 품질이 아닌 상대적 진전을 평가하는 잔여 가치 예측기를 도입하여 정보가 없거나 중복된 도구 호출을 안정적으로 제거합니다. 더 나아가 명시적 유한 예산 범위 내에서 BAVT가 최소 1-ε의 확률로 최종 답변에 도달함을 증명하는 이론적 수렴 보장을 제공합니다. 두 모델 패밀리와 4개의 다중 홉 질의응답 벤치마크에서의 광범위한 평가 결과, BAVT는 병렬 샘플링 기준 방법들을 지속적으로 능가하는 것으로 나타났습니다. 특히, 엄격한 저예산 제약 조건下的 BAVT는 4배의 자원 할당을 받은 기준 방법의 성능을 능가하여, 지능적 예산 관리가 단순한 컴퓨팅 자원 확장을 근본적으로 뛰어넘음을 입증했습니다.
English
Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.