BIG-Bench Extra Difficile
BIG-Bench Extra Hard
February 26, 2025
Autori: Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in applicazioni quotidiane, richiedendo capacità di ragionamento generale robuste e un insieme diversificato di competenze di ragionamento. Tuttavia, gli attuali benchmark di ragionamento per LLM si concentrano principalmente sulle abilità matematiche e di programmazione, lasciando un vuoto nella valutazione di competenze di ragionamento più ampie. Un'eccezione particolare è il dataset BIG-Bench, che ha rappresentato un punto di riferimento cruciale per valutare le capacità di ragionamento generale degli LLM, grazie al suo insieme diversificato di compiti impegnativi che hanno permesso una valutazione completa del ragionamento generale attraverso varie abilità all'interno di un quadro unificato. Tuttavia, i recenti progressi negli LLM hanno portato a una saturazione su BIG-Bench e sulla sua versione più difficile, BIG-Bench Hard (BBH). I modelli all'avanguardia raggiungono punteggi quasi perfetti in molti compiti di BBH, riducendone così l'utilità. Per affrontare questa limitazione, introduciamo BIG-Bench Extra Hard (BBEH), un nuovo benchmark progettato per spingere i limiti della valutazione del ragionamento degli LLM. BBEH sostituisce ogni compito di BBH con un nuovo compito che esplora una capacità di ragionamento simile ma presenta una difficoltà significativamente maggiore. Valutiamo vari modelli su BBEH e osserviamo una precisione media (armonica) del 9,8% per il miglior modello generico e del 44,8% per il miglior modello specializzato nel ragionamento, indicando un ampio margine di miglioramento e sottolineando la sfida continua di raggiungere un ragionamento generale robusto negli LLM. Rilasciamo pubblicamente BBEH all'indirizzo: https://github.com/google-deepmind/bbeh.
English
Large language models (LLMs) are increasingly deployed in everyday
applications, demanding robust general reasoning capabilities and diverse
reasoning skillset. However, current LLM reasoning benchmarks predominantly
focus on mathematical and coding abilities, leaving a gap in evaluating broader
reasoning proficiencies. One particular exception is the BIG-Bench dataset,
which has served as a crucial benchmark for evaluating the general reasoning
capabilities of LLMs, thanks to its diverse set of challenging tasks that
allowed for a comprehensive assessment of general reasoning across various
skills within a unified framework. However, recent advances in LLMs have led to
saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH).
State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus
diminishing its utility. To address this limitation, we introduce BIG-Bench
Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM
reasoning evaluation. BBEH replaces each task in BBH with a novel task that
probes a similar reasoning capability but exhibits significantly increased
difficulty. We evaluate various models on BBEH and observe a (harmonic) average
accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best
reasoning-specialized model, indicating substantial room for improvement and
highlighting the ongoing challenge of achieving robust general reasoning in
LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.Summary
AI-Generated Summary