Falls Sie es verpasst haben: Die ARC-"Herausforderung" ist nicht besonders anspruchsvoll.
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
December 23, 2024
Autoren: Łukasz Borchmann
cs.AI
Zusammenfassung
Die ARC Challenge erscheint für moderne LLMs anscheinend schwieriger als ARC Easy, hauptsächlich aufgrund eines Bewertungsaufbaus, der einen direkten Vergleich von Antwortmöglichkeiten verhindert, anstatt einer inhärenten Komplexität. Obwohl einige Forscher im letzten Jahr leise zu einem angemesseneren Schema übergegangen sind, sind die Auswirkungen dieses Wechsels noch nicht weit verbreitet anerkannt. Wir heben diese übersehene Veränderung hervor, zeigen, wie ähnliche Bewertungspraktiken fälschlicherweise auf Schlussfolgerungsdefizite in anderen Benchmarks hinweisen und zeigen, dass gerechtere Methoden Leistungsunterschiede dramatisch reduzieren (z. B. bei SIQA) und sogar übermenschliche Ergebnisse erzielen (OpenBookQA). Dabei enthüllen wir, wie die Bewertung die wahrgenommene Schwierigkeit formt, und bieten Richtlinien an, um sicherzustellen, dass Multiple-Choice-Bewertungen die tatsächlichen Modellfähigkeiten genau widerspiegeln.
English
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily
due to an evaluation setup that prevents direct comparison of answer choices
rather than inherent complexity. Although some researchers have quietly shifted
to a more appropriate scheme over the last year, the implications of this
change have yet to be widely acknowledged. We highlight this overlooked shift,
show how similar evaluation practices falsely imply reasoning deficits in other
benchmarks, and demonstrate that fairer methods dramatically reduce performance
gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing
so, we reveal how evaluation shapes perceived difficulty and offer guidelines
to ensure that multiple-choice evaluations accurately reflect actual model
capabilities.Summary
AI-Generated Summary