Если вы пропустили: ARC-«вызов» не так уж и сложен.
In Case You Missed It: ARC 'Challenge' Is Not That Challenging
December 23, 2024
Авторы: Łukasz Borchmann
cs.AI
Аннотация
Вызов ARC кажется более сложным, чем ARC Easy, для современных LLMs в основном из-за схемы оценки, которая не позволяет прямого сравнения вариантов ответов, а не из-за врожденной сложности. Хотя некоторые исследователи тихо перешли к более подходящей схеме за последний год, последствия этого изменения пока еще не получили широкого признания. Мы выделяем это недооцененное изменение, показываем, как похожие практики оценки ложно подразумевают недостатки в рассуждениях в других бенчмарках, и демонстрируем, что более справедливые методы значительно сокращают разрывы в производительности (например, на SIQA) и даже приводят к сверхчеловеческим результатам (OpenBookQA). Таким образом, мы раскрываем, как оценка формирует воспринимаемую сложность и предлагаем рекомендации, чтобы гарантировать, что многовариантные оценки точно отражают фактические возможности модели.
English
ARC Challenge appears more difficult than ARC Easy for modern LLMs primarily
due to an evaluation setup that prevents direct comparison of answer choices
rather than inherent complexity. Although some researchers have quietly shifted
to a more appropriate scheme over the last year, the implications of this
change have yet to be widely acknowledged. We highlight this overlooked shift,
show how similar evaluation practices falsely imply reasoning deficits in other
benchmarks, and demonstrate that fairer methods dramatically reduce performance
gaps (e.g. on SIQA) and even yield superhuman results (OpenBookQA). In doing
so, we reveal how evaluation shapes perceived difficulty and offer guidelines
to ensure that multiple-choice evaluations accurately reflect actual model
capabilities.Summary
AI-Generated Summary