ChatPaper.aiChatPaper

BenchHub: 통합적 및 맞춤형 LLM 평가를 위한 통합 벤치마크 스위트

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31, 2025
저자: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI

초록

대규모 언어 모델(LLM)이 계속 발전함에 따라 최신 정보를 반영하고 잘 정리된 벤치마크의 필요성이 점점 더 중요해지고 있다. 그러나 기존의 많은 데이터셋은 흩어져 있고 관리하기 어려우며, 수학이나 코드와 같은 분야에서 도메인 특화 모델의 중요성이 증가하고 있음에도 불구하고 특정 요구사항이나 도메인에 맞춘 평가를 수행하기 어렵게 만든다. 본 논문에서는 연구자와 개발자가 LLM을 보다 효과적으로 평가할 수 있도록 지원하는 동적 벤치마크 저장소인 BenchHub를 소개한다. BenchHub는 다양한 도메인의 벤치마크 데이터셋을 통합하고 자동으로 분류하며, 38개의 벤치마크에 걸쳐 303K개의 질문을 포함한다. 이는 지속적인 업데이트와 확장 가능한 데이터 관리를 지원하도록 설계되어 다양한 도메인이나 사용 사례에 맞춘 유연하고 맞춤화된 평가를 가능하게 한다. 다양한 LLM 패밀리를 대상으로 한 광범위한 실험을 통해 모델 성능이 도메인 특화 하위 집단 간에 상당히 다르다는 것을 입증하며, 도메인 인식 벤치마킹의 중요성을 강조한다. 우리는 BenchHub가 더 나은 데이터셋 재사용, 더 투명한 모델 비교, 기존 벤치마크에서 소외된 영역의 쉬운 식별을 촉진할 수 있으며, LLM 평가 연구를 발전시키는 데 중요한 인프라를 제공할 것으로 믿는다.
English
As large language models (LLMs) continue to advance, the need for up-to-date and well-organized benchmarks becomes increasingly critical. However, many existing datasets are scattered, difficult to manage, and make it challenging to perform evaluations tailored to specific needs or domains, despite the growing importance of domain-specific models in areas such as math or code. In this paper, we introduce BenchHub, a dynamic benchmark repository that empowers researchers and developers to evaluate LLMs more effectively. BenchHub aggregates and automatically classifies benchmark datasets from diverse domains, integrating 303K questions across 38 benchmarks. It is designed to support continuous updates and scalable data management, enabling flexible and customizable evaluation tailored to various domains or use cases. Through extensive experiments with various LLM families, we demonstrate that model performance varies significantly across domain-specific subsets, emphasizing the importance of domain-aware benchmarking. We believe BenchHub can encourage better dataset reuse, more transparent model comparisons, and easier identification of underrepresented areas in existing benchmarks, offering a critical infrastructure for advancing LLM evaluation research.
PDF82June 5, 2025