Масштабирование вычислительных ресурсов на этапе тестирования для агентов на основе больших языковых моделей
Scaling Test-time Compute for LLM Agents
June 15, 2025
Авторы: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
cs.AI
Аннотация
Масштабирование вычислительных ресурсов на этапе тестирования продемонстрировало впечатляющие успехи в улучшении способностей к рассуждению у крупных языковых моделей (LLM). В данной работе мы проводим первое систематическое исследование применения методов масштабирования на этапе тестирования к языковым агентам и изучаем, в какой степени это повышает их эффективность. В частности, мы исследуем различные стратегии масштабирования на этапе тестирования, включая: (1) алгоритмы параллельной выборки; (2) стратегии последовательного пересмотра; (3) методы верификации и объединения результатов; (4) стратегии для увеличения разнообразия сценариев выполнения. Мы тщательно анализируем и оцениваем влияние различных стратегий проектирования на применение масштабирования на этапе тестирования к языковым агентам и получаем следующие выводы: 1. Масштабирование вычислительных ресурсов на этапе тестирования может улучшить производительность агентов. 2. Для агентов важно понимать, когда следует проводить рефлексию. 3. Среди различных подходов к верификации и объединению результатов метод, основанный на списках, показывает наилучшие результаты. 4. Увеличение разнообразия сценариев выполнения положительно влияет на выполнение задач агентом.
English
Scaling test time compute has shown remarkable success in improving the
reasoning abilities of large language models (LLMs). In this work, we conduct
the first systematic exploration of applying test-time scaling methods to
language agents and investigate the extent to which it improves their
effectiveness. Specifically, we explore different test-time scaling strategies,
including: (1) parallel sampling algorithms; (2) sequential revision
strategies; (3) verifiers and merging methods; (4)strategies for diversifying
rollouts.We carefully analyze and ablate the impact of different design
strategies on applying test-time scaling on language agents, and have follow
findings: 1. Scaling test time compute could improve the performance of agents.
2. Knowing when to reflect is important for agents. 3. Among different
verification and result merging approaches, the list-wise method performs best.
4. Increasing diversified rollouts exerts a positive effect on the agent's task
performance.