ARB : Benchmark Avancé de Raisonnement pour les Grands Modèles de Langage
ARB: Advanced Reasoning Benchmark for Large Language Models
July 25, 2023
Auteurs: Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, Paula Vidas, Alexander Kranias, John J. Nay, Kshitij Gupta, Aran Komatsuzaki
cs.AI
Résumé
Les modèles de langage à grande échelle (LLMs) ont démontré des performances remarquables sur divers benchmarks de raisonnement quantitatif et de connaissances. Cependant, de nombreux de ces benchmarks perdent de leur utilité à mesure que les LLMs obtiennent des scores de plus en plus élevés, bien qu'ils n'atteignent pas encore des performances expertes dans ces domaines. Nous introduisons ARB, un nouveau benchmark composé de problèmes de raisonnement avancé dans plusieurs domaines. ARB présente un test plus difficile que les benchmarks précédents, avec des problèmes en mathématiques, physique, biologie, chimie et droit. En tant que sous-ensemble d'ARB, nous introduisons un ensemble complexe de problèmes de mathématiques et de physique qui nécessitent un raisonnement symbolique avancé et des connaissances approfondies du domaine. Nous évaluons des modèles récents tels que GPT-4 et Claude sur ARB et démontrons que les modèles actuels obtiennent des scores bien inférieurs à 50 % sur les tâches les plus exigeantes. Afin d'améliorer les capacités d'évaluation automatique et assistée, nous introduisons une approche d'évaluation basée sur une grille, permettant à GPT-4 de noter ses propres étapes de raisonnement intermédiaires. De plus, nous menons une évaluation humaine du sous-ensemble symbolique d'ARB, constatant un accord prometteur entre les annotateurs et les scores d'évaluation de GPT-4 basés sur la grille.
English
Large Language Models (LLMs) have demonstrated remarkable performance on
various quantitative reasoning and knowledge benchmarks. However, many of these
benchmarks are losing utility as LLMs get increasingly high scores, despite not
yet reaching expert performance in these domains. We introduce ARB, a novel
benchmark composed of advanced reasoning problems in multiple fields. ARB
presents a more challenging test than prior benchmarks, featuring problems in
mathematics, physics, biology, chemistry, and law. As a subset of ARB, we
introduce a challenging set of math and physics problems which require advanced
symbolic reasoning and domain knowledge. We evaluate recent models such as
GPT-4 and Claude on ARB and demonstrate that current models score well below
50% on more demanding tasks. In order to improve both automatic and assisted
evaluation capabilities, we introduce a rubric-based evaluation approach,
allowing GPT-4 to score its own intermediate reasoning steps. Further, we
conduct a human evaluation of the symbolic subset of ARB, finding promising
agreement between annotators and GPT-4 rubric evaluation scores.