Falls Sie es verpasst haben: Die ARC-"Herausforderung" ist nicht besonders anspruchsvoll.

Zusammenfassung

Die ARC Challenge erscheint für moderne LLMs anscheinend schwieriger als ARC Easy, hauptsächlich aufgrund eines Bewertungsaufbaus, der einen direkten Vergleich von Antwortmöglichkeiten verhindert, anstatt einer inhärenten Komplexität. Obwohl einige Forscher im letzten Jahr leise zu einem angemesseneren Schema übergegangen sind, sind die Auswirkungen dieses Wechsels noch nicht weit verbreitet anerkannt. Wir heben diese übersehene Veränderung hervor, zeigen, wie ähnliche Bewertungspraktiken fälschlicherweise auf Schlussfolgerungsdefizite in anderen Benchmarks hinweisen und zeigen, dass gerechtere Methoden Leistungsunterschiede dramatisch reduzieren (z. B. bei SIQA) und sogar übermenschliche Ergebnisse erzielen (OpenBookQA). Dabei enthüllen wir, wie die Bewertung die wahrgenommene Schwierigkeit formt, und bieten Richtlinien an, um sicherzustellen, dass Multiple-Choice-Bewertungen die tatsächlichen Modellfähigkeiten genau widerspiegeln.

English

ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily due to an evaluation setup that prevents direct comparison of answer choices rather than inherent complexity. Although some researchers have quietly shifted to a more appropriate scheme over the last year, the implications of this change have yet to be widely acknowledged. We highlight this overlooked shift, show how similar evaluation practices falsely imply reasoning deficits in other benchmarks, and demonstrate that fairer methods dramatically reduce performance gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing so, we reveal how evaluation shapes perceived difficulty and offer guidelines to ensure that multiple-choice evaluations accurately reflect actual model capabilities.

Falls Sie es verpasst haben: Die ARC-"Herausforderung" ist nicht besonders anspruchsvoll.

In Case You Missed It: ARC 'Challenge' Is Not That Challenging

Zusammenfassung

Support