LLM Swiss Round: Agregação de Desempenho em Múltiplos Benchmarks por meio de Dinâmicas Competitivas de Sistema Suíço

Resumo

A rápida proliferação de Modelos de Linguagem de Grande Porte (LLMs) e de diversos benchmarks especializados exige uma mudança de métricas fragmentadas e específicas por tarefa para um sistema de classificação competitivo e holístico que agregue eficazmente o desempenho em múltiplas dimensões de capacidade. Utilizando principalmente pontuação estática, os métodos atuais de avaliação são fundamentalmente limitados. Eles lutam para determinar a proporção de mistura adequada entre benchmarks diversos e, criticalmente, falham em capturar a aptidão competitiva dinâmica de um modelo ou sua vulnerabilidade quando confrontado com tarefas sequenciais de alto risco. Para resolver isso, introduzimos a nova estrutura de Dinâmica Competitiva do Sistema Suíço (CSD). A CSD simula uma competição sequencial de múltiplas rodadas onde os modelos são emparelhados dinamicamente através de uma sequência curada de benchmarks com base no seu histórico acumulado de vitórias e derrotas. E a Simulação de Monte Carlo (N=100.000 iterações) é usada para aproximar a Pontuação Esperada de Vitórias (E[S_m]) estatisticamente robusta, que elimina o ruído do emparelhamento aleatório e da sorte nas rodadas iniciais. Além disso, implementamos uma Análise de Sensibilidade à Falha parametrizando a quantidade de eliminação por rodada (T_k), o que nos permite traçar o perfil dos modelos com base no seu apetite ao risco - distinguindo entre generalistas robustos e especialistas agressivos. Demonstramos que a CSD fornece uma classificação mais matizada e consciente do contexto do que a pontuação agregada tradicional e os modelos de pares estáticos, representando um passo vital para a avaliação de próxima geração de LLMs baseada em risco.

English

The rapid proliferation of Large Language Models (LLMs) and diverse specialized benchmarks necessitates a shift from fragmented, task-specific metrics to a holistic, competitive ranking system that effectively aggregates performance across multiple ability dimensions. Primarily using static scoring, current evaluation methods are fundamentally limited. They struggle to determine the proper mix ratio across diverse benchmarks, and critically, they fail to capture a model's dynamic competitive fitness or its vulnerability when confronted with sequential, high-stakes tasks. To address this, we introduce the novel Competitive Swiss-System Dynamics (CSD) framework. CSD simulates a multi-round, sequential contest where models are dynamically paired across a curated sequence of benchmarks based on their accumulated win-loss record. And Monte Carlo Simulation (N=100,000 iterations) is used to approximate the statistically robust Expected Win Score (E[S_m]), which eliminates the noise of random pairing and early-round luck. Furthermore, we implement a Failure Sensitivity Analysis by parameterizing the per-round elimination quantity (T_k), which allows us to profile models based on their risk appetite--distinguishing between robust generalists and aggressive specialists. We demonstrate that CSD provides a more nuanced and context-aware ranking than traditional aggregate scoring and static pairwise models, representing a vital step towards risk-informed, next-generation LLM evaluation.

LLM Swiss Round: Agregação de Desempenho em Múltiplos Benchmarks por meio de Dinâmicas Competitivas de Sistema Suíço

LLM Swiss Round: Aggregating Multi-Benchmark Performance via Competitive Swiss-System Dynamics

Resumo

Support