LLM Swiss Round: Aggregazione delle Prestazioni su Multi-Benchmark tramite Dinamiche Competitive a Sistema Svizzero

Abstract

La rapida proliferazione di Large Language Model (LLM) e la diversificazione di benchmark specializzati richiedono un passaggio da metriche frammentate e specifiche per compito a un sistema di classificazione competitivo e olistico, che aggreghi efficacemente le prestazioni attraverso molteplici dimensioni di abilità. Basandosi principalmente su punteggi statici, i metodi di valutazione attuali sono fondamentalmente limitati. Essi faticano a determinare il corretto rapporto di miscelazione tra benchmark diversi e, in modo critico, non riescono a catturare l'idoneità competitiva dinamica di un modello o la sua vulnerabilità quando affronta compiti sequenziali ad alto rischio. Per affrontare questo problema, introduciamo il nuovo framework Competitive Swiss-System Dynamics (CSD). CSD simula un concorso sequenziale a più round in cui i modelli vengono accoppiati dinamicamente attraverso una sequenza curata di benchmark in base al loro record cumulativo di vittorie e sconfitte. Viene utilizzata una Simulazione Monte Carlo (N=100.000 iterazioni) per approssimare l'Expected Win Score (E[S_m]) statisticamente robusto, che elimina il rumore dell'accoppiamento casuale e della fortuna nei round iniziali. Inoltre, implementiamo una Failure Sensitivity Analysis parametrizzando la quantità di eliminazione per round (T_k), che ci permette di profilare i modelli in base alla loro propensione al rischio, distinguendo tra generalisti robusti e specialisti aggressivi. Dimostriamo che CSD fornisce una classificazione più sfumata e consapevole del contesto rispetto ai modelli tradizionali di punteggio aggregato e di confronto a coppie statico, rappresentando un passo cruciale verso una valutazione di prossima generazione degli LLM basata sul rischio.

English

The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.

LLM Swiss Round: Aggregazione delle Prestazioni su Multi-Benchmark tramite Dinamiche Competitive a Sistema Svizzero

LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

Abstract

Support