Трать меньше, рассуждай лучше: Поиск по дереву ценностей с учетом бюджета для агентов на основе больших языковых моделей

Аннотация

Масштабирование на этапе тестирования стало доминирующей парадигмой повышения надежности LLM-агентов, однако современные подходы рассматривают вычислительные ресурсы как неограниченные, позволяя агентам исчерпывать бюджеты токенов и инструментов на избыточные шаги или тупиковые траектории. Существующие бюджетно-ориентированные методы либо требуют дорогостоящего тонкого обучения, либо опираются на грубые эвристики уровня траекторий, не способные вмешиваться в процессе выполнения. Мы предлагаем Бюджетно-Осознающее Дерево Ценностей (BAVT), не требующую обучения инферентную структуру, моделирующую многошаговые рассуждения как динамическое дерево поиска, управляемое оценкой ценности на уровне шагов в рамках единой LLM-архитектуры. Ключевым нововведением является механизм выбора узлов, обусловленный бюджетом, который использует отношение оставшихся ресурсов как естественный показатель степени для ценностей узлов, обеспечивая принципиальный, свободный от параметров переход от широкого исследования к жадной эксплуатации по мере исчерпания бюджета. Для борьбы с известной сверхуверенностью LLM в самооценке, BAVT использует остаточный предсказатель ценности, оценивающий относительный прогресс вместо абсолютного качества состояния, что позволяет надежно отсекать неинформативные или избыточные вызовы инструментов. Мы также предоставляем теоретическую гарантию сходимости, доказывая, что BAVT достигает конечного ответа с вероятностью не менее 1-ε при явной конечной границе бюджета. Обширные оценки на четырех бенчмарках многошаговых вопросов-ответов для двух семейств моделей демонстрируют, что BAVT стабильно превосходит базовые методы параллельного сэмплирования. Особенно показательно, что BAVT в условиях строгих ограничений малого бюджета превосходит производительность базовых методов при четырехкратном выделении ресурсов, устанавливая, что интеллектуальное управление бюджетом принципиально превосходит грубое масштабирование вычислений.

English

Test-time scaling has become a dominant paradigm for improving LLM agent reliability, yet current approaches treat compute as an abundant resource, allowing agents to exhaust token and tool budgets on redundant steps or dead-end trajectories. Existing budget-aware methods either require expensive fine-tuning or rely on coarse, trajectory-level heuristics that cannot intervene mid-execution. We propose the Budget-Aware Value Tree (BAVT), a training-free inference-time framework that models multi-hop reasoning as a dynamic search tree guided by step-level value estimation within a single LLM backbone. Another key innovation is a budget-conditioned node selection mechanism that uses the remaining resource ratio as a natural scaling exponent over node values, providing a principled, parameter-free transition from broad exploration to greedy exploitation as the budget depletes. To combat the well-known overconfidence of LLM self-evaluation, BAVT employs a residual value predictor that scores relative progress rather than absolute state quality, enabling reliable pruning of uninformative or redundant tool calls. We further provide a theoretical convergence guarantee, proving that BAVT reaches a terminal answer with probability at least 1-ε under an explicit finite budget bound. Extensive evaluations on four multi-hop QA benchmarks across two model families demonstrate that BAVT consistently outperforms parallel sampling baselines. Most notably, BAVT under strict low-budget constraints surpasses baseline performance at 4times the resource allocation, establishing that intelligent budget management fundamentally outperforms brute-force compute scaling.

Трать меньше, рассуждай лучше: Поиск по дереву ценностей с учетом бюджета для агентов на основе больших языковых моделей

Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Аннотация

Support