Масштабирование вычислительных ресурсов на этапе тестирования для агентов на основе больших языковых моделей

Аннотация

Масштабирование вычислительных ресурсов на этапе тестирования продемонстрировало впечатляющие успехи в улучшении способностей к рассуждению у крупных языковых моделей (LLM). В данной работе мы проводим первое систематическое исследование применения методов масштабирования на этапе тестирования к языковым агентам и изучаем, в какой степени это повышает их эффективность. В частности, мы исследуем различные стратегии масштабирования на этапе тестирования, включая: (1) алгоритмы параллельной выборки; (2) стратегии последовательного пересмотра; (3) методы верификации и объединения результатов; (4) стратегии для увеличения разнообразия сценариев выполнения. Мы тщательно анализируем и оцениваем влияние различных стратегий проектирования на применение масштабирования на этапе тестирования к языковым агентам и получаем следующие выводы: 1. Масштабирование вычислительных ресурсов на этапе тестирования может улучшить производительность агентов. 2. Для агентов важно понимать, когда следует проводить рефлексию. 3. Среди различных подходов к верификации и объединению результатов метод, основанный на списках, показывает наилучшие результаты. 4. Увеличение разнообразия сценариев выполнения положительно влияет на выполнение задач агентом.

English

Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.

Масштабирование вычислительных ресурсов на этапе тестирования для агентов на основе больших языковых моделей

Scaling Test-time Compute for LLM Agents

Аннотация

Support