Gaste Menos, Raciocine Melhor: Busca em Árvore de Valor Consciente do Orçamento para Agentes de LLM

Resumo

A escalagem durante o teste tornou-se um paradigma dominante para melhorar a confiabilidade de agentes de LLM, no entanto, as abordagens atuais tratam o poder computacional como um recurso abundante, permitindo que os agentes esgotem os orçamentos de tokens e ferramentas em etapas redundantes ou trajetórias sem saída. Os métodos existentes com consciência orçamentária exigem ou um *fine-tuning* dispendioso ou dependem de heurísticas grosseiras a nível de trajetória, incapazes de intervir durante a execução. Propomos a Árvore de Valor com Consciência Orçamentária (BAVT), uma estrutura de inferência em tempo de execução, livre de treinamento, que modela o raciocínio multi-etapa como uma árvore de busca dinâmica orientada por estimativa de valor a nível de etapa dentro de um único *backbone* de LLM. Outra inovação fundamental é um mecanismo de seleção de nós condicionado ao orçamento, que utiliza a razão de recursos restantes como um expoente de escalagem natural sobre os valores dos nós, proporcionando uma transição fundamentada e livre de parâmetros de uma exploração ampla para uma exploração gananciosa à medida que o orçamento se esgota. Para combater a conhecida superconfiança da autoavaliação de LLMs, o BAVT emprega um preditor de valor residual que pontua o progresso relativo em vez da qualidade absoluta do estado, permitindo a poda confiável de chamadas de ferramentas não informativas ou redundantes. Adicionalmente, fornecemos uma garantia teórica de convergência, provando que o BAVT atinge uma resposta terminal com probabilidade de pelo menos 1-ε sob um limite orçamental finito e explícito. Avaliações extensas em quatro *benchmarks* de QA multi-etapa em duas famílias de modelos demonstram que o BAVT supera consistentemente as linhas de base de amostragem paralela. Mais notavelmente, o BAVT sob restrições rigorosas de baixo orçamento supera o desempenho da linha de base com uma alocação de recursos 4 vezes maior, estabelecendo que a gestão inteligente do orçamento supera fundamentalmente a escalagem computacional por força bruta.

English

Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.