Spendi Meno, Ragiona Meglio: Ricerca ad Albero di Valore Consapevole del Budget per Agenti LLM

Abstract

La scalatura al momento del test è diventata un paradigma dominante per migliorare l'affidabilità degli agenti basati su LLM, tuttavia gli approcci attuali trattano la capacità di calcolo come una risorsa abbondante, permettendo agli agenti di esaurire i budget di token e strumenti in passaggi ridondanti o traiettorie senza uscita. I metodi esistenti consapevoli del budget richiedono costosi fine-tuning o si basano su euristiche grossolane a livello di traiettoria che non possono intervenire durante l'esecuzione. Proponiamo il Budget-Aware Value Tree (BAVT), un framework inference-time senza addestramento che modella il ragionamento multi-hop come un albero di ricerca dinamico guidato da una stima del valore a livello di passo all'interno di un singolo backbone LLM. Un'altra innovazione chiave è un meccanismo di selezione dei nodi condizionato dal budget che utilizza il rapporto di risorse rimanenti come esponente di scalatura naturale sui valori dei nodi, fornendo una transizione principiata e senza parametri dall'esplorazione ampia allo sfruttamento greedy man mano che il budget si esaurisce. Per contrastare la ben nota sovraconfidenza della autovalutazione degli LLM, BAVT impiega un predittore di valore residuo che valuta il progresso relativo piuttosto che la qualità assoluta dello stato, consentendo una potatura affidabile delle chiamate a strumenti non informative o ridondanti. Forniamo inoltre una garanzia di convergenza teorica, dimostrando che BAVT raggiunge una risposta terminale con probabilità almeno 1-ε sotto un limite di budget finito esplicito. Valutazioni estese su quattro benchmark di QA multi-hop attraverso due famiglie di modelli dimostrano che BAVT supera costantemente le baseline di campionamento parallelo. Notevolmente, BAVT sotto stringenti vincoli di basso budget supera le prestazioni della baseline con un'allocazione di risorse quattro volte superiore, stabilendo che una gestione intelligente del budget supera fondamentalmente il ridimensionamento brute-force della capacità di calcolo.

English

Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.

Spendi Meno, Ragiona Meglio: Ricerca ad Albero di Valore Consapevole del Budget per Agenti LLM

Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Abstract

Support