ChatPaper.aiChatPaper

BIG-Bench エクストラハード

BIG-Bench Extra Hard

February 26, 2025
著者: Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat
cs.AI

要旨

大規模言語モデル(LLMs)は日常的なアプリケーションにますます導入されており、堅牢な汎用推論能力と多様な推論スキルセットが求められています。しかし、現在のLLM推論ベンチマークは主に数学的およびコーディング能力に焦点を当てており、より広範な推論能力を評価する点でギャップが生じています。その中で特筆すべき例外がBIG-Benchデータセットです。BIG-Benchは、多様な難易度の高いタスクセットを通じて、統一されたフレームワーク内で様々なスキルにわたる汎用推論能力を包括的に評価するための重要なベンチマークとして機能してきました。しかし、最近のLLMの進歩により、BIG-Benchおよびその難易度を上げたバージョンであるBIG-Bench Hard(BBH)での性能が飽和状態に達しています。最先端のモデルはBBHの多くのタスクでほぼ完璧なスコアを達成しており、その有用性が低下しています。この制約に対処するため、我々はBIG-Bench Extra Hard(BBEH)という新しいベンチマークを導入します。BBEHは、BBHの各タスクを、同様の推論能力を探るが大幅に難易度を上げた新規タスクに置き換えています。我々は様々なモデルをBBEHで評価し、汎用モデルにおける最高の(調和)平均精度が9.8%、推論特化モデルでは44.8%であることを確認しました。これは改善の余地が大きく、LLMにおける堅牢な汎用推論の達成が依然として課題であることを示しています。BBEHは公開されており、以下のURLでアクセス可能です: https://github.com/google-deepmind/bbeh。
English
Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.

Summary

AI-Generated Summary

PDF72February 27, 2025