ChatPaper.aiChatPaper

BenchHub: Un Conjunto Unificado de Pruebas de Referencia para la Evaluación Holística y Personalizable de Modelos de Lenguaje Grande (LLM)

BenchHub: A Unified Benchmark Suite for Holistic and Customizable LLM Evaluation

May 31, 2025
Autores: Eunsu Kim, Haneul Yoo, Guijin Son, Hitesh Patel, Amit Agarwal, Alice Oh
cs.AI

Resumen

A medida que los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) continúan avanzando, la necesidad de puntos de referencia actualizados y bien organizados se vuelve cada vez más crítica. Sin embargo, muchos conjuntos de datos existentes están dispersos, son difíciles de gestionar y complican la realización de evaluaciones adaptadas a necesidades o dominios específicos, a pesar de la creciente importancia de los modelos especializados en áreas como las matemáticas o la programación. En este artículo, presentamos BenchHub, un repositorio dinámico de puntos de referencia que permite a investigadores y desarrolladores evaluar los LLMs de manera más efectiva. BenchHub agrega y clasifica automáticamente conjuntos de datos de referencia de diversos dominios, integrando 303K preguntas en 38 puntos de referencia. Está diseñado para soportar actualizaciones continuas y una gestión de datos escalable, permitiendo evaluaciones flexibles y personalizadas adaptadas a diversos dominios o casos de uso. A través de experimentos exhaustivos con varias familias de LLMs, demostramos que el rendimiento de los modelos varía significativamente en subconjuntos específicos de dominios, destacando la importancia de los puntos de referencia conscientes del dominio. Creemos que BenchHub puede fomentar una mejor reutilización de conjuntos de datos, comparaciones de modelos más transparentes y una identificación más sencilla de áreas subrepresentadas en los puntos de referencia existentes, ofreciendo una infraestructura crítica para avanzar en la investigación de evaluación de LLMs.
English
As large language models (LLMs) continue to advance, the need for up-to-date and well-organized benchmarks becomes increasingly critical. However, many existing datasets are scattered, difficult to manage, and make it challenging to perform evaluations tailored to specific needs or domains, despite the growing importance of domain-specific models in areas such as math or code. In this paper, we introduce BenchHub, a dynamic benchmark repository that empowers researchers and developers to evaluate LLMs more effectively. BenchHub aggregates and automatically classifies benchmark datasets from diverse domains, integrating 303K questions across 38 benchmarks. It is designed to support continuous updates and scalable data management, enabling flexible and customizable evaluation tailored to various domains or use cases. Through extensive experiments with various LLM families, we demonstrate that model performance varies significantly across domain-specific subsets, emphasizing the importance of domain-aware benchmarking. We believe BenchHub can encourage better dataset reuse, more transparent model comparisons, and easier identification of underrepresented areas in existing benchmarks, offering a critical infrastructure for advancing LLM evaluation research.
PDF82June 5, 2025