Si vous l'avez manqué : Le défi ARC n'est pas si difficile.
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
December 23, 2024
Auteurs: Łukasz Borchmann
cs.AI
Résumé
Le défi ARC Challenge semble plus difficile que ARC Easy pour les LLM modernes principalement en raison d'une configuration d'évaluation qui empêche la comparaison directe des choix de réponses plutôt que d'une complexité inhérente. Bien que certains chercheurs aient discrètement basculé vers un schéma plus approprié au cours de l'année écoulée, les implications de ce changement n'ont pas encore été largement reconnues. Nous mettons en lumière cette transition négligée, montrons comment des pratiques d'évaluation similaires laissent faussement entendre des déficits de raisonnement dans d'autres référentiels, et démontrons que des méthodes plus équitables réduisent considérablement les écarts de performance (par exemple, sur SIQA) et produisent même des résultats surhumains (OpenBookQA). Ce faisant, nous révélons comment l'évaluation façonne la perception de la difficulté et proposons des lignes directrices pour garantir que les évaluations à choix multiples reflètent précisément les capacités réelles des modèles.
English
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily
due to an evaluation setup that prevents direct comparison of answer choices
rather than inherent complexity. Although some researchers have quietly shifted
to a more appropriate scheme over the last year, the implications of this
change have yet to be widely acknowledged. We highlight this overlooked shift,
show how similar evaluation practices falsely imply reasoning deficits in other
benchmarks, and demonstrate that fairer methods dramatically reduce performance
gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing
so, we reveal how evaluation shapes perceived difficulty and offer guidelines
to ensure that multiple-choice evaluations accurately reflect actual model
capabilities.Summary
AI-Generated Summary