ChatPaper.aiChatPaper

BIG-Bench 엑스트라 하드

BIG-Bench Extra Hard

February 26, 2025
저자: Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat
cs.AI

초록

대형 언어 모델(LLMs)은 일상적인 애플리케이션에 점점 더 많이 배포되면서, 강력한 일반 추론 능력과 다양한 추론 기술을 요구하고 있습니다. 그러나 현재의 LLM 추론 벤치마크는 주로 수학 및 코딩 능력에 초점을 맞추고 있어, 더 넓은 범위의 추론 능력을 평가하는 데 있어 공백이 존재합니다. 한 가지 예외는 BIG-Bench 데이터셋으로, 이는 다양한 도전적인 작업을 통해 통합된 프레임워크 내에서 다양한 기술에 걸친 일반 추론 능력을 종합적으로 평가할 수 있게 해주어 LLM의 일반 추론 능력을 평가하는 중요한 벤치마크 역할을 해왔습니다. 그러나 최근 LLM의 발전으로 인해 BIG-Bench와 그 어려운 버전인 BIG-Bench Hard(BBH)에서 포화 상태에 이르렀습니다. 최첨단 모델들은 BBH의 많은 작업에서 거의 완벽한 점수를 달성하여 그 유용성이 감소하고 있습니다. 이러한 한계를 해결하기 위해, 우리는 LLM 추론 평가의 한계를 뛰어넘기 위해 설계된 새로운 벤치마크인 BIG-Bench Extra Hard(BBEH)를 소개합니다. BBEH는 BBH의 각 작업을 유사한 추론 능력을 탐구하지만 훨씬 더 높은 난이도를 보이는 새로운 작업으로 대체합니다. 우리는 다양한 모델을 BBEH에서 평가하였고, 최고의 범용 모델은 9.8%의 (조화) 평균 정확도를, 최고의 추론 전용 모델은 44.8%의 정확도를 보였습니다. 이는 개선의 여지가 상당히 크며, LLM에서 강력한 일반 추론을 달성하는 것이 여전히 도전적인 과제임을 강조합니다. 우리는 BBEH를 공개적으로 공개합니다: https://github.com/google-deepmind/bbeh.
English
Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.

Summary

AI-Generated Summary

PDF72February 27, 2025