ChatPaper.aiChatPaper

BenchHub: Um Conjunto Unificado de Benchmarks para Avaliação Holística e Personalizável de LLMs

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31, 2025
Autores: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI

Resumo

À medida que os modelos de linguagem de grande escala (LLMs) continuam a avançar, a necessidade de benchmarks atualizados e bem organizados torna-se cada vez mais crítica. No entanto, muitos conjuntos de dados existentes estão dispersos, são difíceis de gerenciar e tornam desafiador realizar avaliações adaptadas a necessidades ou domínios específicos, apesar da crescente importância de modelos específicos para áreas como matemática ou código. Neste artigo, apresentamos o BenchHub, um repositório dinâmico de benchmarks que capacita pesquisadores e desenvolvedores a avaliar LLMs de forma mais eficaz. O BenchHub agrega e classifica automaticamente conjuntos de dados de benchmarks de diversos domínios, integrando 303 mil questões em 38 benchmarks. Ele foi projetado para suportar atualizações contínuas e gerenciamento escalável de dados, permitindo avaliações flexíveis e personalizadas adaptadas a vários domínios ou casos de uso. Por meio de extensos experimentos com diversas famílias de LLMs, demonstramos que o desempenho dos modelos varia significativamente entre subconjuntos específicos de domínios, destacando a importância de benchmarks conscientes do domínio. Acreditamos que o BenchHub pode incentivar uma melhor reutilização de conjuntos de dados, comparações mais transparentes de modelos e uma identificação mais fácil de áreas sub-representadas nos benchmarks existentes, oferecendo uma infraestrutura crítica para o avanço da pesquisa em avaliação de LLMs.
English
As large language models (LLMs) continue to advance, the need for up-to-date and well-organized benchmarks becomes increasingly critical. However, many existing datasets are scattered, difficult to manage, and make it challenging to perform evaluations tailored to specific needs or domains, despite the growing importance of domain-specific models in areas such as math or code. In this paper, we introduce BenchHub, a dynamic benchmark repository that empowers researchers and developers to evaluate LLMs more effectively. BenchHub aggregates and automatically classifies benchmark datasets from diverse domains, integrating 303K questions across 38 benchmarks. It is designed to support continuous updates and scalable data management, enabling flexible and customizable evaluation tailored to various domains or use cases. Through extensive experiments with various LLM families, we demonstrate that model performance varies significantly across domain-specific subsets, emphasizing the importance of domain-aware benchmarking. We believe BenchHub can encourage better dataset reuse, more transparent model comparisons, and easier identification of underrepresented areas in existing benchmarks, offering a critical infrastructure for advancing LLM evaluation research.
PDF82June 5, 2025