Scalabilità del Calcolo durante il Test per Agenti LLM
Scaling Test-time Compute for LLM Agents
June 15, 2025
Autori: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
cs.AI
Abstract
L'aumento del calcolo al momento del test ha dimostrato un notevole successo nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLMs). In questo lavoro, conduciamo la prima esplorazione sistematica dell'applicazione di metodi di scalabilità al momento del test agli agenti linguistici e investigiamo fino a che punto ciò migliora la loro efficacia. Nello specifico, esploriamo diverse strategie di scalabilità al momento del test, tra cui: (1) algoritmi di campionamento parallelo; (2) strategie di revisione sequenziale; (3) verificatori e metodi di fusione; (4) strategie per diversificare i rollout. Analizziamo e abliamo attentamente l'impatto di diverse strategie di progettazione sull'applicazione della scalabilità al momento del test agli agenti linguistici, e abbiamo ottenuto i seguenti risultati: 1. Scalare il calcolo al momento del test può migliorare le prestazioni degli agenti. 2. Sapere quando riflettere è importante per gli agenti. 3. Tra i diversi approcci di verifica e fusione dei risultati, il metodo list-wise si è dimostrato il migliore. 4. Aumentare i rollout diversificati ha un effetto positivo sulle prestazioni dell'agente nei compiti.
English
Scaling test time compute has shown remarkable success in improving the
reasoning abilities of large language models (LLMs). In this work, we conduct
the first systematic exploration of applying test-time scaling methods to
language agents and investigate the extent to which it improves their
effectiveness. Specifically, we explore different test-time scaling strategies,
including: (1) parallel sampling algorithms; (2) sequential revision
strategies; (3) verifiers and merging methods; (4)strategies for diversifying
rollouts.We carefully analyze and ablate the impact of different design
strategies on applying test-time scaling on language agents, and have follow
findings: 1. Scaling test time compute could improve the performance of agents.
2. Knowing when to reflect is important for agents. 3. Among different
verification and result merging approaches, the list-wise method performs best.
4. Increasing diversified rollouts exerts a positive effect on the agent's task
performance.