Avaliação Comparativa de Escalabilidade em Tempo de Teste de Agentes LLM Gerais

Resumo

Os agentes de LLM são cada vez mais esperados para funcionar como sistemas de propósito geral capazes de resolver solicitações abertas dos usuários. Embora os benchmarks existentes se concentrem em ambientes com conhecimento de domínio para desenvolver agentes especializados, a avaliação de agentes de propósito geral requer configurações mais realistas que os desafiem a operar em múltiplas habilidades e ferramentas dentro de um ambiente unificado. Apresentamos o General AgentBench, um benchmark que fornece essa estrutura unificada para avaliar agentes gerais de LLM nos domínios de pesquisa, codificação, raciocínio e uso de ferramentas. Usando o General AgentBench, estudamos sistematicamente os comportamentos de escalonamento em tempo de teste sob escalonamento sequencial (interação iterativa) e escalonamento paralelo (amostragem de múltiplas trajetórias). A avaliação de dez agentes de LLM líderes revela uma degradação substancial de desempenho ao passar de avaliações específicas de domínio para esta configuração de agente geral. Além disso, descobrimos que nenhuma metodologia de escalonamento produz melhorias efetivas de desempenho na prática, devido a duas limitações fundamentais: teto de contexto no escalonamento sequencial e lacuna de verificação no escalonamento paralelo. O código está publicamente disponível em https://github.com/cxcscmu/General-AgentBench.

English

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

Avaliação Comparativa de Escalabilidade em Tempo de Teste de Agentes LLM Gerais

Benchmark Test-Time Scaling of General LLM Agents

Resumo

Support