In het geval dat je het gemist hebt: de ARC 'uitdaging' is niet zo uitdagend.
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
December 23, 2024
Auteurs: Łukasz Borchmann
cs.AI
Samenvatting
De ARC-uitdaging lijkt voor moderne LLM's moeilijker dan ARC Gemakkelijk, voornamelijk vanwege een evaluatieopstelling die directe vergelijking van antwoordkeuzes voorkomt in plaats van inherente complexiteit. Hoewel sommige onderzoekers het afgelopen jaar stilzwijgend zijn overgestapt naar een meer geschikt schema, zijn de implicaties van deze verandering nog niet breed erkend. We benadrukken deze over het hoofd geziene verschuiving, laten zien hoe vergelijkbare evaluatiepraktijken ten onrechte redeneringstekorten suggereren in andere benchmarks, en tonen aan dat eerlijkere methoden prestatieverschillen aanzienlijk verkleinen (bijv. op SIQA) en zelfs bovenmenselijke resultaten opleveren (OpenBookQA). Op deze manier onthullen we hoe evaluatie de waargenomen moeilijkheid vormgeeft en bieden we richtlijnen om ervoor te zorgen dat meerkeuze-evaluaties de daadwerkelijke modelcapaciteiten nauwkeurig weerspiegelen.
English
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily
due to an evaluation setup that prevents direct comparison of answer choices
rather than inherent complexity. Although some researchers have quietly shifted
to a more appropriate scheme over the last year, the implications of this
change have yet to be widely acknowledged. We highlight this overlooked shift,
show how similar evaluation practices falsely imply reasoning deficits in other
benchmarks, and demonstrate that fairer methods dramatically reduce performance
gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing
so, we reveal how evaluation shapes perceived difficulty and offer guidelines
to ensure that multiple-choice evaluations accurately reflect actual model
capabilities.