En caso de que te lo hayas perdido: El desafío de ARC no es tan desafiante.
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
December 23, 2024
Autores: Łukasz Borchmann
cs.AI
Resumen
El desafío ARC parece ser más difícil que el ARC Fácil para los LLM modernos principalmente debido a una configuración de evaluación que impide la comparación directa de opciones de respuesta en lugar de una complejidad inherente. Aunque algunos investigadores han cambiado silenciosamente a un esquema más apropiado durante el último año, las implicaciones de este cambio aún no han sido ampliamente reconocidas. Destacamos este cambio pasado por alto, mostramos cómo prácticas de evaluación similares implican falsamente déficits de razonamiento en otros puntos de referencia, y demostramos que métodos más justos reducen drásticamente las brechas de rendimiento (por ejemplo, en SIQA) e incluso producen resultados superhumanos (OpenBookQA). Al hacerlo, revelamos cómo la evaluación moldea la dificultad percibida y ofrecemos pautas para garantizar que las evaluaciones de opción múltiple reflejen con precisión las capacidades reales del modelo.
English
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily
due to an evaluation setup that prevents direct comparison of answer choices
rather than inherent complexity. Although some researchers have quietly shifted
to a more appropriate scheme over the last year, the implications of this
change have yet to be widely acknowledged. We highlight this overlooked shift,
show how similar evaluation practices falsely imply reasoning deficits in other
benchmarks, and demonstrate that fairer methods dramatically reduce performance
gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing
so, we reveal how evaluation shapes perceived difficulty and offer guidelines
to ensure that multiple-choice evaluations accurately reflect actual model
capabilities.Summary
AI-Generated Summary