In het geval dat je het gemist hebt: de ARC 'uitdaging' is niet zo uitdagend.

Samenvatting

De ARC-uitdaging lijkt voor moderne LLM's moeilijker dan ARC Gemakkelijk, voornamelijk vanwege een evaluatieopstelling die directe vergelijking van antwoordkeuzes voorkomt in plaats van inherente complexiteit. Hoewel sommige onderzoekers het afgelopen jaar stilzwijgend zijn overgestapt naar een meer geschikt schema, zijn de implicaties van deze verandering nog niet breed erkend. We benadrukken deze over het hoofd geziene verschuiving, laten zien hoe vergelijkbare evaluatiepraktijken ten onrechte redeneringstekorten suggereren in andere benchmarks, en tonen aan dat eerlijkere methoden prestatieverschillen aanzienlijk verkleinen (bijv. op SIQA) en zelfs bovenmenselijke resultaten opleveren (OpenBookQA). Op deze manier onthullen we hoe evaluatie de waargenomen moeilijkheid vormgeeft en bieden we richtlijnen om ervoor te zorgen dat meerkeuze-evaluaties de daadwerkelijke modelcapaciteiten nauwkeurig weerspiegelen.

English

ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily due to an evaluation setup that prevents direct comparison of answer choices rather than inherent complexity. Although some researchers have quietly shifted to a more appropriate scheme over the last year, the implications of this change have yet to be widely acknowledged. We highlight this overlooked shift, show how similar evaluation practices falsely imply reasoning deficits in other benchmarks, and demonstrate that fairer methods dramatically reduce performance gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing so, we reveal how evaluation shapes perceived difficulty and offer guidelines to ensure that multiple-choice evaluations accurately reflect actual model capabilities.

In het geval dat je het gemist hebt: de ARC 'uitdaging' is niet zo uitdagend.

In Case You Missed It: ARC 'Challenge' Is Not That Challenging

Samenvatting

Support