ChatPaper.aiChatPaper

BenchHub: Una Suite di Benchmark Unificata per la Valutazione Olistica e Personalizzabile dei Modelli Linguistici di Grande Dimensione

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31, 2025
Autori: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) continuano a progredire, la necessità di benchmark aggiornati e ben organizzati diventa sempre più critica. Tuttavia, molti dataset esistenti sono dispersi, difficili da gestire e rendono complesso eseguire valutazioni su misura per esigenze o domini specifici, nonostante la crescente importanza di modelli specifici per domini come la matematica o il codice. In questo articolo, presentiamo BenchHub, un repository dinamico di benchmark che consente a ricercatori e sviluppatori di valutare gli LLM in modo più efficace. BenchHub aggrega e classifica automaticamente dataset di benchmark provenienti da diversi domini, integrando 303K domande attraverso 38 benchmark. È progettato per supportare aggiornamenti continui e una gestione scalabile dei dati, consentendo valutazioni flessibili e personalizzate adattate a vari domini o casi d'uso. Attraverso esperimenti estesi con diverse famiglie di LLM, dimostriamo che le prestazioni dei modelli variano significativamente tra sottoinsiemi specifici per dominio, sottolineando l'importanza di benchmark consapevoli del dominio. Crediamo che BenchHub possa favorire un migliore riutilizzo dei dataset, confronti più trasparenti tra modelli e una più facile identificazione di aree sottorappresentate nei benchmark esistenti, offrendo un'infrastruttura critica per far progredire la ricerca sulla valutazione degli LLM.
English
As large language models (LLMs) continue to advance, the need for up-to-date and well-organized benchmarks becomes increasingly critical. However, many existing datasets are scattered, difficult to manage, and make it challenging to perform evaluations tailored to specific needs or domains, despite the growing importance of domain-specific models in areas such as math or code. In this paper, we introduce BenchHub, a dynamic benchmark repository that empowers researchers and developers to evaluate LLMs more effectively. BenchHub aggregates and automatically classifies benchmark datasets from diverse domains, integrating 303K questions across 38 benchmarks. It is designed to support continuous updates and scalable data management, enabling flexible and customizable evaluation tailored to various domains or use cases. Through extensive experiments with various LLM families, we demonstrate that model performance varies significantly across domain-specific subsets, emphasizing the importance of domain-aware benchmarking. We believe BenchHub can encourage better dataset reuse, more transparent model comparisons, and easier identification of underrepresented areas in existing benchmarks, offering a critical infrastructure for advancing LLM evaluation research.
PDF82June 5, 2025