Si vous l'avez manqué : Le défi ARC n'est pas si difficile.

Résumé

Le défi ARC Challenge semble plus difficile que ARC Easy pour les LLM modernes principalement en raison d'une configuration d'évaluation qui empêche la comparaison directe des choix de réponses plutôt que d'une complexité inhérente. Bien que certains chercheurs aient discrètement basculé vers un schéma plus approprié au cours de l'année écoulée, les implications de ce changement n'ont pas encore été largement reconnues. Nous mettons en lumière cette transition négligée, montrons comment des pratiques d'évaluation similaires laissent faussement entendre des déficits de raisonnement dans d'autres référentiels, et démontrons que des méthodes plus équitables réduisent considérablement les écarts de performance (par exemple, sur SIQA) et produisent même des résultats surhumains (OpenBookQA). Ce faisant, nous révélons comment l'évaluation façonne la perception de la difficulté et proposons des lignes directrices pour garantir que les évaluations à choix multiples reflètent précisément les capacités réelles des modèles.

English

ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily due to an evaluation setup that prevents direct comparison of answer choices rather than inherent complexity. Although some researchers have quietly shifted to a more appropriate scheme over the last year, the implications of this change have yet to be widely acknowledged. We highlight this overlooked shift, show how similar evaluation practices falsely imply reasoning deficits in other benchmarks, and demonstrate that fairer methods dramatically reduce performance gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing so, we reveal how evaluation shapes perceived difficulty and offer guidelines to ensure that multiple-choice evaluations accurately reflect actual model capabilities.

Si vous l'avez manqué : Le défi ARC n'est pas si difficile.

In Case You Missed It: ARC 'Challenge' Is Not That Challenging

Résumé

Support