BenchHub: Eine einheitliche Benchmark-Suite für ganzheitliche und anpassbare LLM-Evaluierung
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation
May 31, 2025
Autoren: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI
Zusammenfassung
Da große Sprachmodelle (LLMs) sich weiterentwickeln, wird die Notwendigkeit aktueller und gut organisierter Benchmarks zunehmend kritisch. Viele bestehende Datensätze sind jedoch verstreut, schwer zu verwalten und erschweren die Durchführung von Bewertungen, die auf spezifische Anforderungen oder Domänen zugeschnitten sind, obwohl die Bedeutung domänenspezifischer Modelle in Bereichen wie Mathematik oder Code stetig wächst. In diesem Artikel stellen wir BenchHub vor, ein dynamisches Benchmark-Repository, das Forscher und Entwickler befähigt, LLMs effektiver zu evaluieren. BenchHub aggregiert und klassifiziert automatisch Benchmark-Datensätze aus verschiedenen Domänen und integriert 303.000 Fragen aus 38 Benchmarks. Es wurde entwickelt, um kontinuierliche Aktualisierungen und skalierbares Datenmanagement zu unterstützen, wodurch flexible und anpassbare Bewertungen für verschiedene Domänen oder Anwendungsfälle ermöglicht werden. Durch umfangreiche Experimente mit verschiedenen LLM-Familien zeigen wir, dass die Modellleistung über domänenspezifische Teilmengen erheblich variiert, was die Bedeutung domänenbewusster Benchmarking unterstreicht. Wir glauben, dass BenchHub eine bessere Wiederverwendung von Datensätzen, transparentere Modellvergleiche und eine einfachere Identifizierung unterrepräsentierter Bereiche in bestehenden Benchmarks fördern kann und somit eine kritische Infrastruktur für die Weiterentwicklung der LLM-Evaluationsforschung bietet.
English
As large language models (LLMs) continue to advance, the need for up-to-date
and well-organized benchmarks becomes increasingly critical. However, many
existing datasets are scattered, difficult to manage, and make it challenging
to perform evaluations tailored to specific needs or domains, despite the
growing importance of domain-specific models in areas such as math or code. In
this paper, we introduce BenchHub, a dynamic benchmark repository that empowers
researchers and developers to evaluate LLMs more effectively. BenchHub
aggregates and automatically classifies benchmark datasets from diverse
domains, integrating 303K questions across 38 benchmarks. It is designed to
support continuous updates and scalable data management, enabling flexible and
customizable evaluation tailored to various domains or use cases. Through
extensive experiments with various LLM families, we demonstrate that model
performance varies significantly across domain-specific subsets, emphasizing
the importance of domain-aware benchmarking. We believe BenchHub can encourage
better dataset reuse, more transparent model comparisons, and easier
identification of underrepresented areas in existing benchmarks, offering a
critical infrastructure for advancing LLM evaluation research.