ChatPaper.aiChatPaper

BenchHub: Een Uniforme Benchmark Suite voor Holistische en Aanpasbare Evaluatie van LLM's

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31, 2025
Auteurs: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI

Samenvatting

Naarmate grote taalmmodellen (LLMs) zich blijven ontwikkelen, wordt de behoefte aan actuele en goed georganiseerde benchmarks steeds kritischer. Veel bestaande datasets zijn echter verspreid, moeilijk te beheren en maken het uitdagend om evaluaties uit te voeren die zijn afgestemd op specifieke behoeften of domeinen, ondanks de groeiende belangstelling voor domeinspecifieke modellen in gebieden zoals wiskunde of programmeren. In dit artikel introduceren we BenchHub, een dynamische benchmarkrepository die onderzoekers en ontwikkelaars in staat stelt om LLMs effectiever te evalueren. BenchHub aggregeert en classificeert automatisch benchmarkdatasets uit diverse domeinen, waarbij 303K vragen over 38 benchmarks worden geïntegreerd. Het is ontworpen om continue updates en schaalbare dataverwerking te ondersteunen, waardoor flexibele en aanpasbare evaluatie mogelijk wordt die is afgestemd op verschillende domeinen of use cases. Door uitgebreide experimenten met diverse LLM-families tonen we aan dat modelprestaties aanzienlijk variëren over domeinspecifieke subsets, wat het belang benadrukt van domeinbewust benchmarken. Wij geloven dat BenchHub een betere hergebruik van datasets, transparantere modelvergelijkingen en een eenvoudigere identificatie van ondervertegenwoordigde gebieden in bestaande benchmarks kan bevorderen, en biedt daarmee een cruciale infrastructuur voor het bevorderen van LLM-evaluatieonderzoek.
English
As large language models (LLMs) continue to advance, the need for up-to-date and well-organized benchmarks becomes increasingly critical. However, many existing datasets are scattered, difficult to manage, and make it challenging to perform evaluations tailored to specific needs or domains, despite the growing importance of domain-specific models in areas such as math or code. In this paper, we introduce BenchHub, a dynamic benchmark repository that empowers researchers and developers to evaluate LLMs more effectively. BenchHub aggregates and automatically classifies benchmark datasets from diverse domains, integrating 303K questions across 38 benchmarks. It is designed to support continuous updates and scalable data management, enabling flexible and customizable evaluation tailored to various domains or use cases. Through extensive experiments with various LLM families, we demonstrate that model performance varies significantly across domain-specific subsets, emphasizing the importance of domain-aware benchmarking. We believe BenchHub can encourage better dataset reuse, more transparent model comparisons, and easier identification of underrepresented areas in existing benchmarks, offering a critical infrastructure for advancing LLM evaluation research.
PDF82June 5, 2025