Evaluación Comparativa de la Escalabilidad en Tiempo de Prueba de Agentes LLM Generales

Resumen

Se espera cada vez más que los agentes LLM funcionen como sistemas de propósito general capaces de resolver solicitudes abiertas de los usuarios. Si bien los puntos de referencia existentes se centran en entornos específicos de dominio para desarrollar agentes especializados, la evaluación de agentes de propósito general requiere entornos más realistas que los desafíen a operar en múltiples habilidades y herramientas dentro de un entorno unificado. Presentamos General AgentBench, un punto de referencia que proporciona dicho marco unificado para evaluar agentes LLM generales en los dominios de búsqueda, codificación, razonamiento y uso de herramientas. Utilizando General AgentBench, estudiamos sistemáticamente los comportamientos de escalado en tiempo de prueba bajo escalado secuencial (interacción iterativa) y escalado paralelo (muestreo de múltiples trayectorias). La evaluación de diez agentes LLM líderes revela una degradación sustancial del rendimiento al pasar de evaluaciones específicas de dominio a este entorno de agente general. Además, encontramos que ninguna metodología de escalado produce mejoras de rendimiento efectivas en la práctica, debido a dos limitaciones fundamentales: el límite de contexto en el escalado secuencial y la brecha de verificación en el escalado paralelo. El código está disponible públicamente en https://github.com/cxcscmu/General-AgentBench.

English

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

Evaluación Comparativa de la Escalabilidad en Tiempo de Prueba de Agentes LLM Generales

Benchmark Test-Time Scaling of General LLM Agents

Resumen

Support