Tournoi suisse pour LLM : agrégation des performances multi-benchmarks via une dynamique compétitive de système suisse
LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics
December 24, 2025
papers.authors: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong
cs.AI
papers.abstract
La prolifération rapide des grands modèles de langage (LLM) et la diversité des benchmarks spécialisés nécessitent une transition des métriques fragmentées et spécifiques à une tâche vers un système de classement compétitif et holistique, capable d'agréger efficacement les performances sur plusieurs dimensions de compétences. Les méthodes d'évaluation actuelles, qui utilisent principalement des scores statiques, sont fondamentalement limitées. Elles peinent à déterminer le ratio de mélange approprié entre différents benchmarks et, surtout, elles échouent à capturer l'aptitude compétitive dynamique d'un modèle ou sa vulnérabilité face à des tâches séquentielles à enjeux élevés. Pour remédier à cela, nous introduisons le nouveau cadre des Dynamiques Competitives à Système Suisse (CSD). CSD simule un concours séquentiel en plusieurs tours où les modèles sont appariés dynamiquement sur une séquence organisée de benchmarks en fonction de leur historique cumulé de victoires et de défaites. Une simulation de Monte Carlo (N=100 000 itérations) est utilisée pour approximer le Score de Victoire Attendue (E[S_m]) statistiquement robuste, ce qui élimine le bruit dû à l'appariement aléatoire et à la chance dans les premiers tours. De plus, nous mettons en œuvre une Analyse de Sensibilité à l'Échec en paramétrant la quantité d'élimination par tour (T_k), ce qui nous permet de profiler les modèles en fonction de leur appétence au risque – en distinguant les généralistes robustes des spécialistes agressifs. Nous démontrons que CSD fournit un classement plus nuancé et contextuel que les modèles traditionnels de scores agrégés et d'appariements statiques par paires, représentant une étape cruciale vers une évaluation nouvelle génération des LLM informée par le risque.
English
The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.