La nécessité d'un cadre unifié pour l'évaluation des agents basés sur les LLM
The Necessity of a Unified Framework for LLM-Based Agent Evaluation
February 3, 2026
papers.authors: Pengyu Zhu, Li Sun, Philip S. Yu, Sen Su
cs.AI
papers.abstract
Avec l'avènement des modèles de langage de grande taille (LLM), les agents polyvalents ont connu des avancées fondamentales. Cependant, leur évaluation présente des défis uniques qui les distinguent des benchmarks statiques de questions-réponses. Nous observons que les benchmarks actuels pour agents sont fortement biaisés par des facteurs externes, incluant les prompts système, les configurations d'outils et les dynamiques environnementales. Les évaluations existantes reposent souvent sur des cadres fragmentés et spécifiques aux chercheurs, où l'ingénierie de prompt pour le raisonnement et l'utilisation d'outils varie considérablement, rendant difficile l'attribution des gains de performance au modèle lui-même. De plus, l'absence de données environnementales standardisées entraîne des erreurs non traçables et des résultats non reproductibles. Ce manque de standardisation introduit une injustice substantielle et une opacité dans le domaine. Nous proposons qu'un cadre d'évaluation unifié est essentiel pour l'avancement rigoureux de l'évaluation des agents. À cette fin, nous introduisons une proposition visant à standardiser l'évaluation des agents.
English
With the advent of Large Language Models (LLMs), general-purpose agents have seen fundamental advancements. However, evaluating these agents presents unique challenges that distinguish them from static QA benchmarks. We observe that current agent benchmarks are heavily confounded by extraneous factors, including system prompts, toolset configurations, and environmental dynamics. Existing evaluations often rely on fragmented, researcher-specific frameworks where the prompt engineering for reasoning and tool usage varies significantly, making it difficult to attribute performance gains to the model itself. Additionally, the lack of standardized environmental data leads to untraceable errors and non-reproducible results. This lack of standardization introduces substantial unfairness and opacity into the field. We propose that a unified evaluation framework is essential for the rigorous advancement of agent evaluation. To this end, we introduce a proposal aimed at standardizing agent evaluation.