Conclusies trekken uit gelijke spelen: Een herziening van voorkeurssemantiek in arena-stijl LLM-evaluatie
Drawing Conclusions from Draws: Rethinking Preference Semantics in Arena-Style LLM Evaluation
October 2, 2025
Auteurs: Raphael Tang, Crystina Zhang, Wenyan Li, Carmen Lai, Pontus Stenetorp, Yao Lu
cs.AI
Samenvatting
Bij arena-stijl evaluatie van grote taalmodellen (LLM's) reageren twee LLM's op een gebruikersvraag, en de gebruiker kiest het winnende antwoord of beschouwt de "strijd" als een gelijkspel, wat resulteert in een aanpassing van de ratings van beide modellen. De gangbare aanpak om deze ratingdynamiek te modelleren, is om de strijden te beschouwen als wedstrijden tussen twee spelers, zoals bij schaken, en het Elo-ratingsysteem en zijn afgeleiden toe te passen. In dit artikel onderzoeken we dit paradigma kritisch. Specifiek vragen we ons af of een gelijkspel werkelijk betekent dat de twee modellen gelijk zijn en dus of hun ratings gelijkgesteld moeten worden. In plaats daarvan vermoeden we dat gelijke spelen meer een indicatie zijn van de moeilijkheidsgraad van de vraag: als de vraag te eenvoudig is, is de kans groter dat beide modellen even goed presteren. Op drie real-world arena-datasets laten we zien dat het negeren van ratingupdates bij gelijke spelen een relatieve toename van 1-3% oplevert in de nauwkeurigheid van het voorspellen van strijdresultaten (inclusief gelijke spelen) voor alle vier de onderzochte ratingsystemen. Verdere analyses suggereren dat gelijke spelen vaker voorkomen bij vragen die als zeer eenvoudig en als zeer objectief worden beoordeeld, met risicoratio's van respectievelijk 1,37 en 1,35. Wij bevelen aan dat toekomstige ratingsystemen de bestaande semantiek van gelijke spelen heroverwegen en rekening houden met de eigenschappen van de vraag bij het bijwerken van de ratings.
English
In arena-style evaluation of large language models (LLMs), two LLMs respond
to a user query, and the user chooses the winning response or deems the
"battle" a draw, resulting in an adjustment to the ratings of both models. The
prevailing approach for modeling these rating dynamics is to view battles as
two-player game matches, as in chess, and apply the Elo rating system and its
derivatives. In this paper, we critically examine this paradigm. Specifically,
we question whether a draw genuinely means that the two models are equal and
hence whether their ratings should be equalized. Instead, we conjecture that
draws are more indicative of query difficulty: if the query is too easy, then
both models are more likely to succeed equally. On three real-world arena
datasets, we show that ignoring rating updates for draws yields a 1-3% relative
increase in battle outcome prediction accuracy (which includes draws) for all
four rating systems studied. Further analyses suggest that draws occur more for
queries rated as very easy and those as highly objective, with risk ratios of
1.37 and 1.35, respectively. We recommend future rating systems to reconsider
existing draw semantics and to account for query properties in rating updates.