BIG-Bench Extra Difficile

Abstract

I modelli linguistici di grandi dimensioni (LLM) vengono sempre più impiegati in applicazioni quotidiane, richiedendo capacità di ragionamento generale robuste e un insieme diversificato di competenze di ragionamento. Tuttavia, gli attuali benchmark di ragionamento per LLM si concentrano principalmente sulle abilità matematiche e di programmazione, lasciando un vuoto nella valutazione di competenze di ragionamento più ampie. Un'eccezione particolare è il dataset BIG-Bench, che ha rappresentato un punto di riferimento cruciale per valutare le capacità di ragionamento generale degli LLM, grazie al suo insieme diversificato di compiti impegnativi che hanno permesso una valutazione completa del ragionamento generale attraverso varie abilità all'interno di un quadro unificato. Tuttavia, i recenti progressi negli LLM hanno portato a una saturazione su BIG-Bench e sulla sua versione più difficile, BIG-Bench Hard (BBH). I modelli all'avanguardia raggiungono punteggi quasi perfetti in molti compiti di BBH, riducendone così l'utilità. Per affrontare questa limitazione, introduciamo BIG-Bench Extra Hard (BBEH), un nuovo benchmark progettato per spingere i limiti della valutazione del ragionamento degli LLM. BBEH sostituisce ogni compito di BBH con un nuovo compito che esplora una capacità di ragionamento simile ma presenta una difficoltà significativamente maggiore. Valutiamo vari modelli su BBEH e osserviamo una precisione media (armonica) del 9,8% per il miglior modello generico e del 44,8% per il miglior modello specializzato nel ragionamento, indicando un ampio margine di miglioramento e sottolineando la sfida continua di raggiungere un ragionamento generale robusto negli LLM. Rilasciamo pubblicamente BBEH all'indirizzo: https://github.com/google-deepmind/bbeh.

English

Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.