BIG-Bench Extra Moeilijk
BIG-Bench Extra Hard
February 26, 2025
Auteurs: Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat
cs.AI
Samenvatting
Grote taalmodellen (LLM's) worden steeds vaker ingezet in alledaagse toepassingen, waarbij robuuste algemene redeneervaardigheden en een diverse set redeneervaardigheden worden vereist. Echter, huidige LLM redeneer-benchmarks richten zich voornamelijk op wiskundige en programmeervaardigheden, wat een hiaat creëert in de evaluatie van bredere redeneervaardigheden. Een bijzondere uitzondering is het BIG-Bench dataset, dat heeft gediend als een cruciale benchmark voor het evalueren van de algemene redeneervaardigheden van LLM's, dankzij de diverse set uitdagende taken die een uitgebreide beoordeling van algemeen redeneren over verschillende vaardigheden binnen een uniform kader mogelijk maakten. Echter, recente vooruitgang in LLM's heeft geleid tot verzadiging op BIG-Bench, en zijn moeilijkere versie BIG-Bench Hard (BBH). State-of-the-art modellen behalen bijna perfecte scores op veel taken in BBH, waardoor de bruikbaarheid ervan afneemt. Om deze beperking aan te pakken, introduceren we BIG-Bench Extra Hard (BBEH), een nieuwe benchmark die is ontworpen om de grenzen van LLM redeneerevaluatie te verleggen. BBEH vervangt elke taak in BBH door een nieuwe taak die een vergelijkbare redeneervaardigheid onderzoekt maar aanzienlijk meer moeilijkheid vertoont. We evalueren verschillende modellen op BBEH en observeren een (harmonisch) gemiddelde nauwkeurigheid van 9.8% voor het beste algemene model en 44.8% voor het beste redeneer-gespecialiseerde model, wat wijst op aanzienlijke ruimte voor verbetering en het voortdurende uitdaging benadrukt om robuuste algemene redenering in LLM's te bereiken. We maken BBEH openbaar beschikbaar op: https://github.com/google-deepmind/bbeh.
English
Large language models (LLMs) are increasingly deployed in everyday
applications, demanding robust general reasoning capabilities and diverse
reasoning skillset. However, current LLM reasoning benchmarks predominantly
focus on mathematical and coding abilities, leaving a gap in evaluating broader
reasoning proficiencies. One particular exception is the BIG-Bench dataset,
which has served as a crucial benchmark for evaluating the general reasoning
capabilities of LLMs, thanks to its diverse set of challenging tasks that
allowed for a comprehensive assessment of general reasoning across various
skills within a unified framework. However, recent advances in LLMs have led to
saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH).
State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus
diminishing its utility. To address this limitation, we introduce BIG-Bench
Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM
reasoning evaluation. BBEH replaces each task in BBH with a novel task that
probes a similar reasoning capability but exhibits significantly increased
difficulty. We evaluate various models on BBEH and observe a (harmonic) average
accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best
reasoning-specialized model, indicating substantial room for improvement and
highlighting the ongoing challenge of achieving robust general reasoning in
LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.