ChatPaper.aiChatPaper

LLM Ronda Suiza: Agregación del Rendimiento Multibenchmark mediante Dinámicas Competitivas de Sistema Suizo

LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

December 24, 2025
Autores: Jiashuo Liu, Jiayun Wu, Chunjie Wu, Jingkai Liu, Zaiyuan Wang, Huan Zhou, Wenhao Huang, Hongseok Namkoong
cs.AI

Resumen

La rápida proliferación de los Modelos de Lenguaje a Gran Escala (LLMs) y de diversos benchmarks especializados exige un cambio desde métricas fragmentadas y específicas por tarea hacia un sistema de clasificación competitivo y holístico que agregue eficazmente el rendimiento a través de múltiples dimensiones de habilidad. Utilizando principalmente puntuaciones estáticas, los métodos de evaluación actuales son fundamentalmente limitados. Estos métodos tienen dificultades para determinar la proporción de mezcla adecuada entre benchmarks diversos y, críticamente, no logran capturar la aptitud competitiva dinámica de un modelo o su vulnerabilidad cuando se enfrenta a tareas secuenciales de alto riesgo. Para abordar esto, introducimos el novedoso marco de Dinámicas Competitivas de Sistema Suizo (CSD). CSD simula un concurso secuencial de múltiples rondas donde los modelos son emparejados dinámicamente a lo largo de una secuencia curada de benchmarks basándose en su historial acumulado de victorias y derrotas. Se utiliza una Simulación de Monte Carlo (N=100,000 iteraciones) para aproximar la Puntuación Esperada de Victorias (E[S_m]) estadísticamente robusta, lo que elimina el ruido del emparejamiento aleatorio y la suerte en las primeras rondas. Además, implementamos un Análisis de Sensibilidad al Fracaso parametrizando la cantidad de eliminación por ronda (T_k), lo que nos permite trazar perfiles de los modelos basados en su apetito de riesgo, distinguiendo entre generalistas robustos y especialistas agresivos. Demostramos que CSD proporciona una clasificación más matizada y consciente del contexto que las puntuaciones agregadas tradicionales y los modelos de pares estáticos, representando un paso vital hacia la evaluación de LLMs de próxima generación informada por el riesgo.
English
The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.
PDF01December 26, 2025