BenchHub: Унифицированный набор тестов для комплексной и настраиваемой оценки языковых моделей (LLM)
BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation
May 31, 2025
Авторы: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) продолжают развиваться, необходимость в актуальных и хорошо организованных бенчмарках становится все более критичной. Однако многие существующие наборы данных разрознены, сложны в управлении и затрудняют проведение оценок, адаптированных под конкретные потребности или области, несмотря на растущую важность моделей, ориентированных на конкретные области, такие как математика или программирование. В данной статье мы представляем BenchHub — динамический репозиторий бенчмарков, который позволяет исследователям и разработчикам более эффективно оценивать LLM. BenchHub агрегирует и автоматически классифицирует наборы данных для бенчмарков из различных областей, интегрируя 303 тысячи вопросов из 38 бенчмарков. Он разработан для поддержки непрерывных обновлений и масштабируемого управления данными, что позволяет проводить гибкую и настраиваемую оценку, адаптированную под различные области или сценарии использования. В ходе обширных экспериментов с различными семействами LLM мы демонстрируем, что производительность моделей значительно варьируется в зависимости от предметно-ориентированных подмножеств, подчеркивая важность бенчмаркинга с учетом предметной области. Мы считаем, что BenchHub может способствовать более эффективному повторному использованию наборов данных, более прозрачному сравнению моделей и более легкому выявлению недостаточно представленных областей в существующих бенчмарках, предлагая критически важную инфраструктуру для продвижения исследований в области оценки LLM.
English
As large language models (LLMs) continue to advance, the need for up-to-date
and well-organized benchmarks becomes increasingly critical. However, many
existing datasets are scattered, difficult to manage, and make it challenging
to perform evaluations tailored to specific needs or domains, despite the
growing importance of domain-specific models in areas such as math or code. In
this paper, we introduce BenchHub, a dynamic benchmark repository that empowers
researchers and developers to evaluate LLMs more effectively. BenchHub
aggregates and automatically classifies benchmark datasets from diverse
domains, integrating 303K questions across 38 benchmarks. It is designed to
support continuous updates and scalable data management, enabling flexible and
customizable evaluation tailored to various domains or use cases. Through
extensive experiments with various LLM families, we demonstrate that model
performance varies significantly across domain-specific subsets, emphasizing
the importance of domain-aware benchmarking. We believe BenchHub can encourage
better dataset reuse, more transparent model comparisons, and easier
identification of underrepresented areas in existing benchmarks, offering a
critical infrastructure for advancing LLM evaluation research.