Évaluation comparative de la mise à l'échelle en temps de test des agents LLM généraux

Résumé

Les agents LLM sont de plus en plus appelés à fonctionner comme des systèmes polyvalents capables de résoudre des requêtes utilisateur ouvertes. Si les benchmarks existants se concentrent sur des environnements spécialisés pour développer des agents experts, l'évaluation d'agents polyvalents nécessite des cadres plus réalistes qui les mettent au défi d'opérer à travers plusieurs compétences et outils dans un environnement unifié. Nous présentons General AgentBench, un benchmark fournissant un tel cadre unifié pour évaluer les agents LLM généraux dans les domaines de la recherche, du codage, du raisonnement et de l'utilisation d'outils. En utilisant General AgentBench, nous étudions systématiquement les comportements de mise à l'échelle au moment du test sous l'échelle séquentielle (interaction itérative) et l'échelle parallèle (échantillonnage de multiples trajectoires). L'évaluation de dix agents LLM leaders révèle une dégradation substantielle des performances lors du passage d'évaluations spécialisées à ce cadre d'agent général. De plus, nous constatons qu'aucune méthodologie de mise à l'échelle ne produit d'améliorations efficaces des performances en pratique, en raison de deux limitations fondamentales : le plafond contextuel dans l'échelle séquentielle et le déficit de vérification dans l'échelle parallèle. Le code est disponible publiquement à l'adresse https://github.com/cxcscmu/General-AgentBench.

English

LLM agents are increasingly expected to function as general-purpose systems capable of resolving open-ended user requests. While existing benchmarks focus on domain-aware environments for developing specialized agents, evaluating general-purpose agents requires more realistic settings that challenge them to operate across multiple skills and tools within a unified environment. We introduce General AgentBench, a benchmark that provides such a unified framework for evaluating general LLM agents across search, coding, reasoning, and tool-use domains. Using General AgentBench, we systematically study test-time scaling behaviors under sequential scaling (iterative interaction) and parallel scaling (sampling multiple trajectories). Evaluation of ten leading LLM agents reveals a substantial performance degradation when moving from domain-specific evaluations to this general-agent setting. Moreover, we find that neither scaling methodology yields effective performance improvements in practice, due to two fundamental limitations: context ceiling in sequential scaling and verification gap in parallel scaling. Code is publicly available at https://github.com/cxcscmu/General-AgentBench.

Évaluation comparative de la mise à l'échelle en temps de test des agents LLM généraux

Benchmark Test-Time Scaling of General LLM Agents

Résumé

Support