Weniger ausgeben, besser schlussfolgern: Budgetbewusste Wert-Baumsuche für LLM-Agenten

Zusammenfassung

Test-Time-Scaling hat sich als dominantes Paradigma zur Verbesserung der Zuverlässigkeit von LLM-Agenten etabliert. Bisherige Ansätze behandeln Rechenleistung jedoch als uneingeschränkt verfügbare Ressource, sodass Agenten Token- und Tool-Budgets für redundante Schritte oder Sackgassen aufbrauchen können. Bestehende budgetbewusste Methoden erfordern entweder kostspieliges Fine-Tuning oder basieren auf groben, trajectorienbasierten Heuristiken, die keine Intervention während der Ausführung ermöglichen. Wir schlagen den Budget-Aware Value Tree (BAVT) vor, ein trainingsfreies Inferenz-Framework, das Multi-Hop-Reasoning als dynamischen Suchbaum modelliert, der durch schrittweise Wertschätzung innerhalb eines einzelnen LLM-Backbones gesteuert wird. Eine weitere Schlüsselinnovation ist ein budgetkonditionierter Knotenauswahlmechanismus, der das verbleibende Ressourcenverhältnis als natürlichen Skalierungsexponenten über Knotenwerten nutzt. Dies ermöglicht einen prinzipienbasierten, parameterfreien Übergang von breiter Exploration zu gieriger Exploitation bei schwindendem Budget. Um der bekannten Überkonfidenz von LLM-Selbsteinschätzungen entgegenzuwirken, verwendet BAVT einen residualen Wertprädiktor, der relativen Fortschritt statt absoluter Zustandsqualität bewertet und so zuverlässiges Ausmerzen uninformativer oder redundanter Tool-Aufrufe ermöglicht. Wir liefern zudem eine theoretische Konvergenzgarantie und beweisen, dass BAVT mit einer Wahrscheinlichkeit von mindestens 1-ε eine endgültige Antwort unter einer expliziten endlichen Budgetschranke erreicht. Umfangreiche Auswertungen auf vier Multi-Hop-QA-Benchmarks über zwei Modellfamilien hinweg zeigen, dass BAVT Parallel-Sampling-Baselines konsistent übertrifft. Besonders bemerkenswert ist, dass BAVT unter strengen Niedrigbudget-Bedingungen die Baseline-Leistung bei der vierfachen Ressourcenzuteilung übertrifft, was belegt, dass intelligentes Budgetmanagement reine Rechenleistungsskalierung grundlegend übertrifft.

English

Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.

Weniger ausgeben, besser schlussfolgern: Budgetbewusste Wert-Baumsuche für LLM-Agenten

Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Zusammenfassung

Support