ChatPaper.aiChatPaper

BenchHub: Унифицированный набор тестов для комплексной и настраиваемой оценки языковых моделей (LLM)

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31, 2025
Авторы: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI

Аннотация

По мере того как крупные языковые модели (LLM) продолжают развиваться, необходимость в актуальных и хорошо организованных бенчмарках становится все более критичной. Однако многие существующие наборы данных разрознены, сложны в управлении и затрудняют проведение оценок, адаптированных под конкретные потребности или области, несмотря на растущую важность моделей, ориентированных на конкретные области, такие как математика или программирование. В данной статье мы представляем BenchHub — динамический репозиторий бенчмарков, который позволяет исследователям и разработчикам более эффективно оценивать LLM. BenchHub агрегирует и автоматически классифицирует наборы данных для бенчмарков из различных областей, интегрируя 303 тысячи вопросов из 38 бенчмарков. Он разработан для поддержки непрерывных обновлений и масштабируемого управления данными, что позволяет проводить гибкую и настраиваемую оценку, адаптированную под различные области или сценарии использования. В ходе обширных экспериментов с различными семействами LLM мы демонстрируем, что производительность моделей значительно варьируется в зависимости от предметно-ориентированных подмножеств, подчеркивая важность бенчмаркинга с учетом предметной области. Мы считаем, что BenchHub может способствовать более эффективному повторному использованию наборов данных, более прозрачному сравнению моделей и более легкому выявлению недостаточно представленных областей в существующих бенчмарках, предлагая критически важную инфраструктуру для продвижения исследований в области оценки LLM.
English
As large language models (LLMs) continue to advance, the need for up-to-date and well-organized benchmarks becomes increasingly critical. However, many existing datasets are scattered, difficult to manage, and make it challenging to perform evaluations tailored to specific needs or domains, despite the growing importance of domain-specific models in areas such as math or code. In this paper, we introduce BenchHub, a dynamic benchmark repository that empowers researchers and developers to evaluate LLMs more effectively. BenchHub aggregates and automatically classifies benchmark datasets from diverse domains, integrating 303K questions across 38 benchmarks. It is designed to support continuous updates and scalable data management, enabling flexible and customizable evaluation tailored to various domains or use cases. Through extensive experiments with various LLM families, we demonstrate that model performance varies significantly across domain-specific subsets, emphasizing the importance of domain-aware benchmarking. We believe BenchHub can encourage better dataset reuse, more transparent model comparisons, and easier identification of underrepresented areas in existing benchmarks, offering a critical infrastructure for advancing LLM evaluation research.
PDF82June 5, 2025