ChatPaper.aiChatPaper

LLM Swiss Round: Aggregatie van Prestaties over Meerdere Benchmarks via Competitieve Zwitserse-Systeem Dynamiek

LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

December 24, 2025
Auteurs: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong
cs.AI

Samenvatting

De snelle proliferatie van Large Language Models (LLM's) en diverse gespecialiseerde benchmarks vereist een verschuiving van gefragmenteerde, taakspecifieke metrieken naar een holistisch, competitief rankingsysteem dat prestaties effectief aggregeert over meerdere vaardigheidsdimensies. Huidige evaluatiemethoden, die voornamelijk statische scoring gebruiken, zijn fundamenteel beperkt. Ze worstelen met het bepalen van de juiste mixverhouding over diverse benchmarks en, cruciaal, ze slagen er niet in om de dynamische competitieve fitheid van een model of de kwetsbaarheid daarvan bij opeenvolgende, hoogrisicotaken vast te leggen. Om dit aan te pakken, introduceren we het nieuwe Competitive Swiss-System Dynamics (CSD) raamwerk. CSD simuleert een meerronde, sequentiële wedstrijd waarin modellen dynamisch worden gekoppeld over een geselecteerde reeks benchmarks op basis van hun opgebouwde winst-verlies record. Monte Carlo-simulatie (N=100.000 iteraties) wordt gebruikt om de statistisch robuuste Verwachte Win Score (E[S_m]) te benaderen, die de ruis van willekeurige koppeling en geluk in vroege rondes elimineert. Verder implementeren we een Failure Sensitivity Analysis door de eliminatiehoeveelheid per ronde (T_k) te parametriseren, wat ons in staat stelt om modellen te profileren op basis van hun risicobereidheid – en onderscheid te maken tussen robuuste generalisten en agressieve specialisten. We tonen aan dat CSD een meer genuanceerde en contextbewuste ranking biedt dan traditionele aggregate scoring en statische paarsgewijze modellen, wat een cruciale stap vertegenwoordigt naar risicogebaseerde, next-generation LLM-evaluatie.
English
The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.
PDF01December 26, 2025