Gasta Menos, Razona Mejor: Búsqueda en Árbol de Valor con Conciencia del Presupuesto para Agentes de LLM
Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents
March 13, 2026
Autores: Yushu Li, Wenlong Deng, Jiajin Li, Xiaoxiao Li
cs.AI
Resumen
La escalada en tiempo de prueba se ha convertido en un paradigma dominante para mejorar la fiabilidad de los agentes de LLM, sin embargo, los enfoques actuales tratan el cómputo como un recurso abundante, permitiendo que los agentes agoten los presupuestos de tokens y herramientas en pasos redundantes o trayectorias sin salida. Los métodos existentes conscientes del presupuesto requieren un ajuste fino costoso o se basan en heurísticas burdas a nivel de trayectoria que no pueden intervenir a mitad de la ejecución. Proponemos el Árbol de Valor Consciente del Presupuesto (BAVT), un marco en tiempo de inferencia libre de entrenamiento que modela el razonamiento multi-salto como un árbol de búsqueda dinámico guiado por una estimación de valor a nivel de paso dentro de una única arquitectura base de LLM. Otra innovación clave es un mecanismo de selección de nodos condicionado por el presupuesto que utiliza la proporción de recursos restantes como un exponente de escalado natural sobre los valores de los nodos, proporcionando una transición fundamentada y sin parámetros desde una exploración amplia hacia una explotación voraz a medida que el presupuesto se agota. Para combatir la bien conocida sobreconfianza de la autoevaluación de los LLM, BAVT emplea un predictor de valor residual que puntúa el progreso relativo en lugar de la calidad absoluta del estado, permitiendo una poda fiable de llamadas a herramientas no informativas o redundantes. Además, proporcionamos una garantía teórica de convergencia, demostrando que BAVT alcanza una respuesta terminal con una probabilidad de al menos 1-ε bajo un límite de presupuesto finito explícito. Evaluaciones exhaustivas en cuatro benchmarks de preguntas y respuestas multi-salto en dos familias de modelos demuestran que BAVT supera consistentemente a las líneas base de muestreo paralelo. Más notablemente, BAVT bajo estrictas restricciones de bajo presupuesto supera el rendimiento de la línea base con una asignación de recursos 4 veces mayor, estableciendo que la gestión inteligente del presupuesto supera fundamentalmente al escalado de cómputo por fuerza bruta.
English
Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.