LLM 스위스 라운드: 경쟁적 스위스 시스템 역학을 통한 다중 벤치마크 성능 집계
LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics
December 24, 2025
저자: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong
cs.AI
초록
대규모 언어 모델(LLM)의 급속한 확산과 다양한 전문 벤치마크의 등장으로 인해 단편적인 과제별 평가 지표에서 벗어나, 다중 능력 차원의 성과를 효과적으로 종합하는 포괄적 경쟁 순위 체계로의 전환이 필요합니다. 현재 널리 사용되는 정적 점수 기반 평가 방식은 근본적인 한계를 지닙니다. 다양한 벤치마크 간 적절한 가중치를 결정하는 데 어려움을 겪으며, 특히 순차적이고 위험성이 높은 과제에 직면했을 때 모델의 동적 경쟁 적합성이나 취약성을 포착하지 못한다는 중대한 결함이 있습니다. 이를 해결하기 위해 본 연구는 새로운 경쟁형 스위스 시스템 동역학(CSD) 프레임워크를 제안합니다. CSD는 다중 라운드 순차 경쟁을 시뮬레이션하며, 모델은 누적 승패 기록을 바탕으로 선별된 벤치마크 시퀀스에서 동적으로 매칭됩니다. 또한 몬테카를로 시뮬레이션(N=100,000회 반복)을 통해 통계적으로 강건한 기대 승점(E[S_m])을 근사화하여 무작위 매칭 및 초기 라운드 운에 따른 노이즈를 제거합니다. 더 나아가, 라운드별 탈락량(T_k)을 매개변수화하여 실패 민감도 분석을 구현함으로써, 모델을 위험 성향에 따라 구분(강건한 일반주의 모델과 공격적 전문가 모델)하는 프로파일링이 가능합니다. CSD가 기존의 종합 점수 및 정적 pairwise 모델보다 더 세밀하고 상황 인식적인 순위를 제공함을 입증하며, 이는 위험 정보를 고려한 차세대 LLM 평가로 나아가는 중요한 진전을 나타냅니다.
English
The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.