Benchmarken van Test-Tijd Schaling van Algemene LLM-Agenten
Benchmark Test-Time Scaling of General LLM Agents
February 22, 2026
Auteurs: Xiaochuan Li, Ryan Ming, Pranav Setlur, Abhijay Paladugu, Andy Tang, Hao Kang, Shuai Shao, Rong Jin, Chenyan Xiong
cs.AI
Samenvatting
LLM-agents worden steeds vaker verwacht te functioneren als algemene systemen die in staat zijn open-einde gebruikersverzoeken op te lossen. Hoewel bestaande benchmarks zich richten op domeinbewuste omgevingen voor het ontwikkelen van gespecialiseerde agents, vereist het evalueren van algemene agents realistischer instellingen die hen uitdagen om te opereren over meerdere vaardigheden en tools heen binnen een uniforme omgeving. Wij introduceren General AgentBench, een benchmark die zo'n uniform kader biedt voor het evalueren van algemene LLM-agents binnen de domeinen zoeken, programmeren, redeneren en toolgebruik. Met General AgentBench bestuderen we systematisch schaalgedrag tijdens testen onder sequentiële schaling (iteratieve interactie) en parallelle schaling (bemonstering van meerdere trajecten). Evaluatie van tien toonaangevende LLM-agents toont een substantiële prestatievermindering wanneer wordt overgegaan van domeinspecifieke evaluaties naar deze algemene agent-setting. Bovendien constateren we dat geen van beide schaalmethodieken in de praktijk effectieve prestatieverbeteringen oplevert, vanwege twee fundamentele beperkingen: de contextlimiet bij sequentiële schaling en de verificatiekloof bij parallelle schaling. Code is openbaar beschikbaar op https://github.com/cxcscmu/General-AgentBench.
English
LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.