YourBench: Conjuntos de Evaluación Personalizados Fáciles para Todos
YourBench: Easy Custom Evaluation Sets for Everyone
April 2, 2025
Autores: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI
Resumen
La evaluación efectiva de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) sigue siendo un cuello de botella crítico, ya que los puntos de referencia estáticos tradicionales sufren de saturación y contaminación, mientras que las evaluaciones humanas son costosas y lentas. Esto dificulta la evaluación oportuna o específica del dominio, crucial para aplicaciones del mundo real. Presentamos YourBench, un marco novedoso y de código abierto que aborda estas limitaciones al permitir la generación dinámica y automatizada de puntos de referencia confiables, actualizados y adaptados al dominio de manera económica y sin anotación manual, directamente a partir de documentos proporcionados por el usuario. Demostramos su eficacia al replicar 7 subconjuntos diversos de MMLU utilizando texto fuente mínimo, logrando esto por menos de 15 USD en costos totales de inferencia mientras se preserva perfectamente el ranking relativo del rendimiento de los modelos (Spearman Rho = 1) observado en el punto de referencia original. Para garantizar que YourBench genere datos basados en la entrada proporcionada en lugar de depender del conocimiento paramétrico posterior en los modelos, también presentamos Tempora-0325, un conjunto de datos novedoso de más de 7K documentos diversos, publicados exclusivamente después de marzo de 2025. Nuestro análisis exhaustivo abarca 26 modelos de última generación (SoTA) de 7 familias principales en diferentes escalas (3-671B parámetros) para validar la calidad de las evaluaciones generadas mediante verificaciones algorítmicas rigurosas (por ejemplo, fundamentación de citas) y evaluaciones humanas. Publicamos la biblioteca YourBench, el conjunto de datos Tempora-0325, más de 150k pares de preguntas y respuestas basados en Tempora, y todos los rastros de evaluación e inferencia para facilitar la investigación reproducible y empoderar a la comunidad para generar puntos de referencia personalizados bajo demanda, fomentando una evaluación de LLMs más relevante y confiable.
English
Evaluating large language models (LLMs) effectively remains a critical
bottleneck, as traditional static benchmarks suffer from saturation and
contamination, while human evaluations are costly and slow. This hinders timely
or domain-specific assessment, crucial for real-world applications. We
introduce YourBench, a novel, open-source framework that addresses these
limitations by enabling dynamic, automated generation of reliable, up-to-date,
and domain-tailored benchmarks cheaply and without manual annotation, directly
from user-provided documents. We demonstrate its efficacy by replicating 7
diverse MMLU subsets using minimal source text, achieving this for under 15 USD
in total inference costs while perfectly preserving the relative model
performance rankings (Spearman Rho = 1) observed on the original benchmark. To
ensure that YourBench generates data grounded in provided input instead of
relying on posterior parametric knowledge in models, we also introduce
Tempora-0325, a novel dataset of over 7K diverse documents, published
exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models
from 7 major families across varying scales (3-671B parameters) to validate the
quality of generated evaluations through rigorous algorithmic checks (e.g.,
citation grounding) and human assessments. We release the YourBench library,
the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all
evaluation and inference traces to facilitate reproducible research and empower
the community to generate bespoke benchmarks on demand, fostering more relevant
and trustworthy LLM evaluation.Summary
AI-Generated Summary