ChatPaper.aiChatPaper

LLM Swiss Round: Агрегация производительности по нескольким бенчмаркам через конкурентную динамику швейцарской системы

LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

December 24, 2025
Авторы: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong
cs.AI

Аннотация

Быстрая пролиферация больших языковых моделей (LLM) и разнообразных специализированных бенчмарков требует перехода от фрагментированных, специфичных для задач метрик к целостной конкурентной системе ранжирования, которая эффективно агрегирует производительность по множеству измерений способностей. Современные методы оценки, основанные преимущественно на статическом подсчете очков, имеют фундаментальные ограничения. Они не позволяют определить оптимальное соотношение весов для различных бенчмарков и, что критически важно, не способны оценить динамическую конкурентную пригодность модели или ее уязвимость при решении последовательных задач с высокой ставкой. Для решения этой проблемы мы представляем новую систему конкурентной динамики по швейцарской системе (КДШС). КДШС моделирует многораундовое последовательное соревнование, в котором модели динамически подбираются в пары на основе их накопленных побед и поражений в рамках курируемой последовательности бенчмарков. Для аппроксимации статистически устойчивого Ожидаемого счета побед (E[S_m]), который исключает шум случайного спаривания и везения в начальных раундах, используется метод Монте-Карло (N=100 000 итераций). Кроме того, мы реализуем Анализ чувствительности к отказам путем параметризации количества исключаемых участников за раунд (T_k), что позволяет нам классифицировать модели на основе их склонности к риску — различая устойчивых универсалов и агрессивных специалистов. Мы демонстрируем, что КДШС обеспечивает более детальное и контекстно-зависимое ранжирование по сравнению с традиционным агрегированным подсчетом очков и статическими парными моделями, представляя собой важный шаг на пути к оценке LLM следующего поколения с учетом рисков.
English
The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.
PDF01December 26, 2025