BenchHub : Une Suite de Benchmarks Unifiée pour l'Évaluation Holistique et Personnalisable des LLM
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation
May 31, 2025
Auteurs: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI
Résumé
Alors que les modèles de langage de grande taille (LLMs) continuent de progresser, la nécessité de référentiels actualisés et bien organisés devient de plus en plus critique. Cependant, de nombreux ensembles de données existants sont dispersés, difficiles à gérer et rendent complexe la réalisation d'évaluations adaptées à des besoins ou domaines spécifiques, malgré l'importance croissante des modèles spécialisés dans des domaines tels que les mathématiques ou le code. Dans cet article, nous présentons BenchHub, un référentiel dynamique de benchmarks qui permet aux chercheurs et développeurs d'évaluer les LLMs de manière plus efficace. BenchHub agrège et classe automatiquement des ensembles de données de benchmarks provenant de divers domaines, intégrant 303 000 questions issues de 38 benchmarks. Il est conçu pour supporter des mises à jour continues et une gestion scalable des données, permettant une évaluation flexible et personnalisable adaptée à différents domaines ou cas d'utilisation. À travers des expériences approfondies avec diverses familles de LLMs, nous démontrons que la performance des modèles varie significativement selon les sous-ensembles spécifiques à un domaine, soulignant l'importance d'une évaluation prenant en compte le domaine. Nous pensons que BenchHub peut encourager une meilleure réutilisation des ensembles de données, des comparaisons de modèles plus transparentes et une identification plus aisée des domaines sous-représentés dans les benchmarks existants, offrant ainsi une infrastructure essentielle pour faire progresser la recherche sur l'évaluation des LLMs.
English
As large language models (LLMs) continue to advance, the need for up-to-date
and well-organized benchmarks becomes increasingly critical. However, many
existing datasets are scattered, difficult to manage, and make it challenging
to perform evaluations tailored to specific needs or domains, despite the
growing importance of domain-specific models in areas such as math or code. In
this paper, we introduce BenchHub, a dynamic benchmark repository that empowers
researchers and developers to evaluate LLMs more effectively. BenchHub
aggregates and automatically classifies benchmark datasets from diverse
domains, integrating 303K questions across 38 benchmarks. It is designed to
support continuous updates and scalable data management, enabling flexible and
customizable evaluation tailored to various domains or use cases. Through
extensive experiments with various LLM families, we demonstrate that model
performance varies significantly across domain-specific subsets, emphasizing
the importance of domain-aware benchmarking. We believe BenchHub can encourage
better dataset reuse, more transparent model comparisons, and easier
identification of underrepresented areas in existing benchmarks, offering a
critical infrastructure for advancing LLM evaluation research.