Conclusies trekken uit gelijke spelen: Een herziening van voorkeurssemantiek in arena-stijl LLM-evaluatie

Samenvatting

Bij arena-stijl evaluatie van grote taalmodellen (LLM's) reageren twee LLM's op een gebruikersvraag, en de gebruiker kiest het winnende antwoord of beschouwt de "strijd" als een gelijkspel, wat resulteert in een aanpassing van de ratings van beide modellen. De gangbare aanpak om deze ratingdynamiek te modelleren, is om de strijden te beschouwen als wedstrijden tussen twee spelers, zoals bij schaken, en het Elo-ratingsysteem en zijn afgeleiden toe te passen. In dit artikel onderzoeken we dit paradigma kritisch. Specifiek vragen we ons af of een gelijkspel werkelijk betekent dat de twee modellen gelijk zijn en dus of hun ratings gelijkgesteld moeten worden. In plaats daarvan vermoeden we dat gelijke spelen meer een indicatie zijn van de moeilijkheidsgraad van de vraag: als de vraag te eenvoudig is, is de kans groter dat beide modellen even goed presteren. Op drie real-world arena-datasets laten we zien dat het negeren van ratingupdates bij gelijke spelen een relatieve toename van 1-3% oplevert in de nauwkeurigheid van het voorspellen van strijdresultaten (inclusief gelijke spelen) voor alle vier de onderzochte ratingsystemen. Verdere analyses suggereren dat gelijke spelen vaker voorkomen bij vragen die als zeer eenvoudig en als zeer objectief worden beoordeeld, met risicoratio's van respectievelijk 1,37 en 1,35. Wij bevelen aan dat toekomstige ratingsystemen de bestaande semantiek van gelijke spelen heroverwegen en rekening houden met de eigenschappen van de vraag bij het bijwerken van de ratings.

English

In arena-style evaluation of large language models (LLMs), two LLMs respond to a user query, and the user chooses the winning response or deems the "battle" a draw, resulting in an adjustment to the ratings of both models. The prevailing approach for modeling these rating dynamics is to view battles as two-player game matches, as in chess, and apply the Elo rating system and its derivatives. In this paper, we critically examine this paradigm. Specifically, we question whether a draw genuinely means that the two models are equal and hence whether their ratings should be equalized. Instead, we conjecture that draws are more indicative of query difficulty: if the query is too easy, then both models are more likely to succeed equally. On three real-world arena datasets, we show that ignoring rating updates for draws yields a 1-3% relative increase in battle outcome prediction accuracy (which includes draws) for all four rating systems studied. Further analyses suggest that draws occur more for queries rated as very easy and those as highly objective, with risk ratios of 1.37 and 1.35, respectively. We recommend future rating systems to reconsider existing draw semantics and to account for query properties in rating updates.

Conclusies trekken uit gelijke spelen: Een herziening van voorkeurssemantiek in arena-stijl LLM-evaluatie

Drawing Conclusions from Draws: Rethinking Preference Semantics in Arena-Style LLM Evaluation

Samenvatting

Support