ChatPaper.aiChatPaper

LLMベースのエージェント評価における統一フレームワークの必要性

The Necessity of a Unified Framework for LLM-Based Agent Evaluation

February 3, 2026
著者: Pengyu Zhu, Li Sun, Philip S. Yu, Sen Su
cs.AI

要旨

大規模言語モデル(LLM)の登場により、汎用エージェントの技術は根本的な進化を遂げています。しかし、これらのエージェントの評価には、静的な質問応答ベンチマークとは異なる特有の課題が存在します。現在のエージェントベンチマークは、システムプロンプト、ツールセットの構成、環境のダイナミクスといった外的要因に大きく影響を受け、混乱していることが観察されます。既存の評価手法は、断片的で研究者ごとに異なるフレームワークに依存する傾向があり、推論やツール利用のためのプロンプトエンジニアリングが大きく異なるため、性能向上の要因をモデル自体に帰属させることが困難です。さらに、標準化された環境データの不足により、エラーの追跡が不能となり、再現性のない結果が生じています。この標準化の欠如は、当該分野に著しい不公平性と不透明性をもたらしています。我々は、エージェント評価を厳密に発展させるためには、統一された評価フレームワークが不可欠であると提案します。この目的に向けて、我々はエージェント評価の標準化を目指す提案を紹介します。
English
With the advent of Large Language Models (LLMs), general-purpose agents have seen fundamental advancements. However, evaluating these agents presents unique challenges that distinguish them from static QA benchmarks. We observe that current agent benchmarks are heavily confounded by extraneous factors, including system prompts, toolset configurations, and environmental dynamics. Existing evaluations often rely on fragmented, researcher-specific frameworks where the prompt engineering for reasoning and tool usage varies significantly, making it difficult to attribute performance gains to the model itself. Additionally, the lack of standardized environmental data leads to untraceable errors and non-reproducible results. This lack of standardization introduces substantial unfairness and opacity into the field. We propose that a unified evaluation framework is essential for the rigorous advancement of agent evaluation. To this end, we introduce a proposal aimed at standardizing agent evaluation.
PDF11February 5, 2026