Scalabilità del Calcolo durante il Test per Agenti LLM

Abstract

L'aumento del calcolo al momento del test ha dimostrato un notevole successo nel migliorare le capacità di ragionamento dei grandi modelli linguistici (LLMs). In questo lavoro, conduciamo la prima esplorazione sistematica dell'applicazione di metodi di scalabilità al momento del test agli agenti linguistici e investigiamo fino a che punto ciò migliora la loro efficacia. Nello specifico, esploriamo diverse strategie di scalabilità al momento del test, tra cui: (1) algoritmi di campionamento parallelo; (2) strategie di revisione sequenziale; (3) verificatori e metodi di fusione; (4) strategie per diversificare i rollout. Analizziamo e abliamo attentamente l'impatto di diverse strategie di progettazione sull'applicazione della scalabilità al momento del test agli agenti linguistici, e abbiamo ottenuto i seguenti risultati: 1. Scalare il calcolo al momento del test può migliorare le prestazioni degli agenti. 2. Sapere quando riflettere è importante per gli agenti. 3. Tra i diversi approcci di verifica e fusione dei risultati, il metodo list-wise si è dimostrato il migliore. 4. Aumentare i rollout diversificati ha un effetto positivo sulle prestazioni dell'agente nei compiti.

English

Scaling test time compute has shown remarkable success in improving the reasoning abilities of large language models (LLMs). In this work, we conduct the first systematic exploration of applying test-time scaling methods to language agents and investigate the extent to which it improves their effectiveness. Specifically, we explore different test-time scaling strategies, including: (1) parallel sampling algorithms; (2) sequential revision strategies; (3) verifiers and merging methods; (4)strategies for diversifying rollouts.We carefully analyze and ablate the impact of different design strategies on applying test-time scaling on language agents, and have follow findings: 1. Scaling test time compute could improve the performance of agents. 2. Knowing when to reflect is important for agents. 3. Among different verification and result merging approaches, the list-wise method performs best. 4. Increasing diversified rollouts exerts a positive effect on the agent's task performance.

Scalabilità del Calcolo durante il Test per Agenti LLM

Scaling Test-time Compute for LLM Agents

Abstract

Support