LLM Swiss-Runde: Aggregierung von Multi-Benchmark-Leistungen durch wettbewerbsorientierte Schweizer System-Dynamiken
LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics
December 24, 2025
papers.authors: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong
cs.AI
papers.abstract
Die rasche Verbreitung von Large Language Models (LLMs) und die Vielfalt spezialisierter Benchmarks erfordern einen Wechsel von fragmentierten, aufgabenspezifischen Metriken hin zu einem ganzheitlichen, wettbewerbsorientierten Rankingsystem, das die Leistung über mehrere Fähigkeitsdimensionen hinweg effektiv aggregiert. Aktuelle Evaluierungsmethoden, die primär auf statischer Bewertung basieren, sind grundlegend limitiert. Sie haben Schwierigkeiten, das richtige Mischverhältnis über verschiedene Benchmarks hinweg zu bestimmen, und können kritischerweise die dynamische Wettbewerbsfähigkeit eines Modells oder seine Anfälligkeit bei der Konfrontation mit sequenziellen, hochriskanten Aufgaben nicht erfassen. Um dies zu adressieren, führen wir den neuartigen Competitive Swiss-System Dynamics (CSD)-Rahmen ein. CSD simuliert einen mehrrundigen, sequenziellen Wettbewerb, bei dem Modelle dynamisch über eine kuratierte Abfolge von Benchmarks hinweg basierend auf ihrer kumulierten Gewinn-Verlust-Bilanz gepaart werden. Eine Monte-Carlo-Simulation (N=100.000 Iterationen) wird verwendet, um den statistisch robusten Expected Win Score (E[S_m]) zu approximieren, der das Rauschen durch zufällige Paarungen und Glück in frühen Runden eliminiert. Darüber hinaus implementieren wir eine Failure Sensitivity Analysis, indem wir die Eliminierungsmenge pro Runde (T_k) parametrisieren. Dies erlaubt es uns, Modelle basierend auf ihrer Risikobereitschaft zu profilieren – und so zwischen robusten Generalisten und aggressiven Spezialisten zu unterscheiden. Wir zeigen, dass CSD eine nuanciertere und kontextbewusstere Einstufung liefert als traditionelle aggregierte Bewertungen und statische Paarvergleichsmodelle, und damit einen entscheidenden Schritt in Richtung einer risikobewussten LLM-Evaluierung der nächsten Generation darstellt.
English
The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.