ChatPaper.aiChatPaper

Scalabilità del Calcolo durante il Test per Agenti LLM

Scaling Test-time Compute for LLM Agents

June 15, 2025
Autori: King Zhu, Hanhao Li, Siwei Wu, Tianshun Xing, Dehua Ma, Xiangru Tang, Minghao Liu, Jian Yang, Jiaheng Liu, Yuchen Eleanor Jiang, Changwang Zhang, Chenghua Lin, Jun Wang, Ge Zhang, Wangchunshu Zhou
cs.AI

Abstract

L'aumento del calcolo al momento del test ha dimostrato un notevole successo nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLMs). In questo lavoro, conduciamo la prima esplorazione sistematica dell'applicazione di metodi di scalabilità al momento del test agli agenti linguistici e investigiamo fino a che punto ciò migliora la loro efficacia. Nello specifico, esploriamo diverse strategie di scalabilità al momento del test, tra cui: (1) algoritmi di campionamento parallelo; (2) strategie di revisione sequenziale; (3) verificatori e metodi di fusione; (4) strategie per diversificare i rollout. Analizziamo e abliamo attentamente l'impatto di diverse strategie di progettazione sull'applicazione della scalabilità al momento del test agli agenti linguistici, e abbiamo ottenuto i seguenti risultati: 1. Scalare il calcolo al momento del test può migliorare le prestazioni degli agenti. 2. Sapere quando riflettere è importante per gli agenti. 3. Tra i diversi approcci di verifica e fusione dei risultati, il metodo list-wise si è dimostrato il migliore. 4. Aumentare i rollout diversificati ha un effetto positivo sulle prestazioni dell'agente nei compiti.
English
Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.
PDF603June 18, 2025