ChatPaper.aiChatPaper

BIG-Bench Extra Moeilijk

BIG-Bench Extra Hard

February 26, 2025
Auteurs: Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat
cs.AI

Samenvatting

Grote taalmodellen (LLM's) worden steeds vaker ingezet in alledaagse toepassingen, waarbij robuuste algemene redeneervaardigheden en een diverse set redeneervaardigheden worden vereist. Echter, huidige LLM redeneer-benchmarks richten zich voornamelijk op wiskundige en programmeervaardigheden, wat een hiaat creëert in de evaluatie van bredere redeneervaardigheden. Een bijzondere uitzondering is het BIG-Bench dataset, dat heeft gediend als een cruciale benchmark voor het evalueren van de algemene redeneervaardigheden van LLM's, dankzij de diverse set uitdagende taken die een uitgebreide beoordeling van algemeen redeneren over verschillende vaardigheden binnen een uniform kader mogelijk maakten. Echter, recente vooruitgang in LLM's heeft geleid tot verzadiging op BIG-Bench, en zijn moeilijkere versie BIG-Bench Hard (BBH). State-of-the-art modellen behalen bijna perfecte scores op veel taken in BBH, waardoor de bruikbaarheid ervan afneemt. Om deze beperking aan te pakken, introduceren we BIG-Bench Extra Hard (BBEH), een nieuwe benchmark die is ontworpen om de grenzen van LLM redeneerevaluatie te verleggen. BBEH vervangt elke taak in BBH door een nieuwe taak die een vergelijkbare redeneervaardigheid onderzoekt maar aanzienlijk meer moeilijkheid vertoont. We evalueren verschillende modellen op BBEH en observeren een (harmonisch) gemiddelde nauwkeurigheid van 9.8% voor het beste algemene model en 44.8% voor het beste redeneer-gespecialiseerde model, wat wijst op aanzienlijke ruimte voor verbetering en het voortdurende uitdaging benadrukt om robuuste algemene redenering in LLM's te bereiken. We maken BBEH openbaar beschikbaar op: https://github.com/google-deepmind/bbeh.
English
Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.
PDF103February 27, 2025