ChatPaper.aiChatPaper

ARB : Benchmark Avancé de Raisonnement pour les Grands Modèles de Langage

ARB: Advanced Reasoning Benchmark for Large Language Models

July 25, 2023
Auteurs: Tomohiro Sawada, Daniel Paleka, Alexander Havrilla, Pranav Tadepalli, Paula Vidas, Alexander Kranias, John J. Nay, Kshitij Gupta, Aran Komatsuzaki
cs.AI

Résumé

Les modèles de langage à grande échelle (LLMs) ont démontré des performances remarquables sur divers benchmarks de raisonnement quantitatif et de connaissances. Cependant, de nombreux de ces benchmarks perdent de leur utilité à mesure que les LLMs obtiennent des scores de plus en plus élevés, bien qu'ils n'atteignent pas encore des performances expertes dans ces domaines. Nous introduisons ARB, un nouveau benchmark composé de problèmes de raisonnement avancé dans plusieurs domaines. ARB présente un test plus difficile que les benchmarks précédents, avec des problèmes en mathématiques, physique, biologie, chimie et droit. En tant que sous-ensemble d'ARB, nous introduisons un ensemble complexe de problèmes de mathématiques et de physique qui nécessitent un raisonnement symbolique avancé et des connaissances approfondies du domaine. Nous évaluons des modèles récents tels que GPT-4 et Claude sur ARB et démontrons que les modèles actuels obtiennent des scores bien inférieurs à 50 % sur les tâches les plus exigeantes. Afin d'améliorer les capacités d'évaluation automatique et assistée, nous introduisons une approche d'évaluation basée sur une grille, permettant à GPT-4 de noter ses propres étapes de raisonnement intermédiaires. De plus, nous menons une évaluation humaine du sous-ensemble symbolique d'ARB, constatant un accord prometteur entre les annotateurs et les scores d'évaluation de GPT-4 basés sur la grille.
English
Large Language Models (LLMs) have demonstrated remarkable performance on various quantitative reasoning and knowledge benchmarks. However, many of these benchmarks are losing utility as LLMs get increasingly high scores, despite not yet reaching expert performance in these domains. We introduce ARB, a novel benchmark composed of advanced reasoning problems in multiple fields. ARB presents a more challenging test than prior benchmarks, featuring problems in mathematics, physics, biology, chemistry, and law. As a subset of ARB, we introduce a challenging set of math and physics problems which require advanced symbolic reasoning and domain knowledge. We evaluate recent models such as GPT-4 and Claude on ARB and demonstrate that current models score well below 50% on more demanding tasks. In order to improve both automatic and assisted evaluation capabilities, we introduce a rubric-based evaluation approach, allowing GPT-4 to score its own intermediate reasoning steps. Further, we conduct a human evaluation of the symbolic subset of ARB, finding promising agreement between annotators and GPT-4 rubric evaluation scores.
PDF170December 15, 2024