ChatPaper.aiChatPaper

LLMスイスラウンド:競争的スイスシステムダイナミクスによるマルチベンチマーク性能の集約

LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

December 24, 2025
著者: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong
cs.AI

要旨

大規模言語モデル(LLM)の急速な普及と多様化する専門ベンチマークの増加に伴い、断片的なタスク特化型評価から、複数の能力次元にわたる性能を効果的に集約する包括的で競争的なランキングシステムへの転換が求められている。現在主流の静的スコアリングに基づく評価手法は根本的な限界を有する。多様なベンチマーク間の適切な混合比率を決定することが困難であることに加え、特に重要なのは、逐次的でハイステークスなタスクに直面した際のモデルの動的な競争適性や脆弱性を捉えられない点である。この問題を解決するため、我々は新たな競争的スイス式ダイナミクス(CSD)フレームワークを提案する。CSDは、モデルが蓄積した勝敗記録に基づいて厳選された一連のベンチマーク上で動的にペアリングされる、多ラウンド逐次競技をシミュレートする。さらにモンテカルロシミュレーション(N=100,000回反復)を用いて、統計的に頑健な期待勝利スコア(E[S_m])を推定し、ランダムなペアリングや初期ラウンドの偶発的要因によるノイズを除去する。加えて、ラウンドごとの脱落数をパラメータ化(T_k)した失敗感度分析を実装し、リスク選好性に基づくモデルのプロファイリングを可能にする。これにより、頑健なゼネラリストと攻撃的なスペシャリストを明確に区別する。我々は、CSDが伝統的な集計スコアリングや静的ペアワイズモデルよりも繊細で文脈を考慮したランキングを提供することを示し、リスク情報を組み込んだ次世代LLM評価に向けた重要な一歩を表すものである。
English
The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.
PDF01December 26, 2025