Dépenser moins, raisonner mieux : Recherche arborescente de valeur adaptée au budget pour les agents LLM

Résumé

L'ajustement à l'inférence est devenu un paradigme dominant pour améliorer la fiabilité des agents de LLM, mais les approches actuelles traitent le calcul comme une ressource abondante, permettant aux agents d'épuiser les budgets de tokens et d'outils dans des étapes redondantes ou des trajectoires sans issue. Les méthodes existantes conscientes du budget nécessitent soit un fine-tuning coûteux, soit reposent sur des heuristiques grossières au niveau de la trajectoire incapables d'intervenir en cours d'exécution. Nous proposons l'Arbre de Valeur Conscient du Budget (BAVT), un framework d'inférence sans entraînement qui modélise le raisonnement multi-sauts comme un arbre de recherche dynamique guidé par une estimation de la valeur au niveau de l'étape au sein d'un seul modèle de LLM. Une autre innovation clé est un mécanisme de sélection de nœuds conditionné par le budget, qui utilise le ratio de ressources restantes comme exposant de mise à l'échelle naturel sur les valeurs des nœuds, fournissant une transition principielle et sans paramètre d'une exploration large à une exploitation gourmande à mesure que le budget s'épuise. Pour contrer la surconfiance bien connue de l'auto-évaluation des LLM, BAVT emploie un prédicteur de valeur résiduel qui évalue le progrès relatif plutôt que la qualité absolue de l'état, permettant un élagage fiable des appels d'outils non informatifs ou redondants. Nous fournissons en outre une garantie de convergence théorique, prouvant que BAVT atteint une réponse terminale avec une probabilité d'au moins 1-ε sous une borne de budget finie explicite. Des évaluations approfondies sur quatre benchmarks de QA multi-sauts à travers deux familles de modèles démontrent que BAVT surpasse constamment les lignes de base par échantillonnage parallèle. Plus notablement, BAVT sous des contraintes strictes de faible budget dépasse les performances de base avec une allocation de ressources 4 fois supérieure, établissant qu'une gestion intelligente du budget surpasse fondamentalement la mise à l'échelle par la force brute des calculs.

English

Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.

Dépenser moins, raisonner mieux : Recherche arborescente de valeur adaptée au budget pour les agents LLM

Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Résumé

Support