ChatPaper.aiChatPaper

あらゆるものを、あらゆる場所で、同時にベンチマークする

Benchmark Everything Everywhere All at Once

June 4, 2026
著者: Shiyun Xiong, Dongming Wu, Peiwen Sun, Yuang Ai, Bokang Yang, Wencheng Han, Xiao-Hui Li, Xiangyu Yue
cs.AI

要旨

ベンチマークは、大規模言語モデル(LLM)およびマルチモーダル大規模言語モデル(MLLM)の評価と進歩において、標準化された明確な性能指標を提供する基盤となる。しかし、その構築には多大な労力を要し、再利用が困難であるため、持続可能性とスケーラビリティに懸念が生じている。さらに、既存のベンチマークは公開後すぐに性能飽和に達することが多く、最先端モデル間の十分な識別が困難となる。これらの課題に取り組むため、本稿ではベンチマーク構築のための完全自律型エージェントシステムであるBenchmark Agentを紹介する。本フレームワークは、ユーザークエリの分析、サブタスク設計、データアノテーション、品質管理に至るまで、ベンチマーク構築パイプライン全体を統括する。Benchmark Agentを評価するため、テキスト理解、マルチモーダル理解、ドメイン特化型推論など多様な評価シナリオを網羅する15の代表的なベンチマークを生成した。人間による評価、LLM-as-a-judge評価、一貫性チェックを含む広範な実験により、Benchmark Agentが最小限の人間の関与で高品質なベンチマークサンプルを生成できることが実証された。さらに重要な点として、継続的な評価を通じて、現行モデルが特定のドメイン特化型推論タスクに困難を抱えるなど、いくつかの洞察を得た。急速に進化するベンチマークは研究コミュニティに大きく貢献すると確信する。プレビューとコードはデモページおよびコードリポジトリで公開予定である。
English
Benchmarks are fundamental for evaluating and advancing LLMs and MLLMs by providing standardized and explicit measures of performance. However, their construction is labor-intensive and hard to reuse, raising concerns about sustainability and scalability. Moreover, existing benchmarks often quickly reach performance saturation after their release, resulting in insufficient discrimination among state-of-the-art models. To address these challenges, we introduce Benchmark Agent, a fully autonomous agentic system designed for benchmark building. Our framework orchestrates the complete benchmark construction pipeline, from user query analysis and subtask design to data annotation and quality control. To assess Benchmark Agent, we implement it to produce 15 representative benchmarks, spanning diverse evaluation scenarios, including text understanding, multimodal understanding, and domain-specific reasoning. Extensive experiments, including human evaluation, LLM-as-a-judge assessment, and consistency checks, demonstrate Benchmark Agent can generate high-quality benchmark samples with minimal human involvement. More importantly, through continual evaluation, we observe several insightful findings, including that current models struggle with certain domain-specific reasoning tasks. We believe that rapidly evolving benchmarks can contribute significantly to the research community. The preview and code will be publicly available at the demo page and code repository.