Test di Benchmark sul Ridimensionamento a Tempo di Test degli Agenti LLM Generici

Abstract

Gli agenti LLM sono sempre più considerati come sistemi a scopo generale capaci di risolvere richieste aperte degli utenti. Sebbene i benchmark esistenti si concentrino su ambienti specializzati per sviluppare agenti di dominio specifico, la valutazione di agenti a scopo generale richiede ambienti più realistici che li mettano alla prova operando attraverso molteplici competenze e strumenti all'interno di un ambiente unificato. Introduciamo General AgentBench, un benchmark che fornisce un quadro unificato per valutare agenti LLM generali nei domini di ricerca, programmazione, ragionamento e utilizzo di strumenti. Utilizzando General AgentBench, studiamo sistematicamente i comportamenti di scaling a tempo di test sotto scaling sequenziale (interazione iterativa) e scaling parallelo (campionamento di traiettorie multiple). La valutazione di dieci principali agenti LLM rivela un sostanziale degrado delle prestazioni quando si passa da valutazioni di dominio specifico a questa impostazione di agente generale. Inoltre, scopriamo che nessuna delle due metodologie di scaling produce miglioramenti efficaci delle prestazioni nella pratica, a causa di due limitazioni fondamentali: il tetto contestuale nello scaling sequenziale e il divario di verifica nello scaling parallelo. Il codice è pubblicamente disponibile all'indirizzo https://github.com/cxcscmu/General-AgentBench.

English

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

Test di Benchmark sul Ridimensionamento a Tempo di Test degli Agenti LLM Generici

Benchmark Test-Time Scaling of General LLM Agents

Abstract

Support