Minder Uitgeven, Beter Redeneren: Budgetbewuste Waardeboomzoektocht voor LLM-Agenten

Samenvatting

Test-time scaling is uitgegroeid tot een dominant paradigma voor het verbeteren van de betrouwbaarheid van LLM-agenten, maar huidige benaderingen behandelen rekenkracht als een overvloedige hulpbron, waardoor agenten token- en toolbudgetten kunnen uitputten met redundante stappen of doodlopende trajecten. Bestaande budgetbewuste methoden vereisen ofwel dure fine-tuning, of steunen op grove, trajectniveau heuristieken die niet kunnen ingrijpen tijdens de uitvoering. Wij stellen de Budget-Aware Value Tree (BAVT) voor, een training-free inference-time raamwerk dat multi-hop redeneren modelleert als een dynamische zoekboom, geleid door stapniveau waarde-inschatting binnen een enkele LLM-backbone. Een andere belangrijke innovatie is een budget-geconditioneerd knooppuntselectiemechanisme dat de resterende resourceverhouding gebruikt als een natuurlijke schalingsexponent over knooppuntwaarden, wat een principiële, parameter-vrije overgang biedt van brede exploratie naar hebberige exploitatie naarmate het budget slinkt. Om de bekende overmoedigheid van LLM-zelfevaluatie tegen te gaan, gebruikt BAVT een residuele waarde-voorspeller die relatieve vooruitgang scoort in plaats van absolute staatkwaliteit, waardoor betrouwbaar snoeien van oninformatieve of redundante toolaanroepen mogelijk wordt. Wij bieden verder een theoretische convergentiegarantie, waarbij wordt bewezen dat BAVT een eindantwoord bereikt met een waarschijnlijkheid van ten minste 1-ε onder een expliciete eindige budgetgrens. Uitgebreide evaluaties op vier multi-hop QA benchmarks across twee modelfamilies tonen aan dat BAVT consistent de prestaties van parallelle sampling-baselines overtreft. Opmerkelijk genoeg overstijgt BAVT onder strikte low-budget beperkingen de baseline-prestaties bij een viervoudige resource-toewijzing, wat aantoont dat intelligent budgetbeheer fundamenteel superieur is aan brute-force compute scaling.

English

Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.

Minder Uitgeven, Beter Redeneren: Budgetbewuste Waardeboomzoektocht voor LLM-Agenten

Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Samenvatting

Support