YourBench : Des ensembles d'évaluation personnalisés accessibles à tous
YourBench: Easy Custom Evaluation Sets for Everyone
April 2, 2025
Auteurs: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI
Résumé
L'évaluation efficace des grands modèles de langage (LLM) reste un goulot d'étranglement critique, car les benchmarks statiques traditionnels souffrent de saturation et de contamination, tandis que les évaluations humaines sont coûteuses et lentes. Cela entrave les évaluations opportunes ou spécifiques à un domaine, pourtant cruciales pour les applications réelles. Nous présentons YourBench, un nouveau framework open-source qui surmonte ces limites en permettant la génération dynamique et automatisée de benchmarks fiables, à jour et adaptés à des domaines spécifiques, à moindre coût et sans annotation manuelle, directement à partir de documents fournis par l'utilisateur. Nous démontrons son efficacité en reproduisant 7 sous-ensembles diversifiés de MMLU en utilisant un texte source minimal, pour un coût total d'inférence inférieur à 15 USD, tout en préservant parfaitement les classements relatifs des performances des modèles (Spearman Rho = 1) observés sur le benchmark original. Pour garantir que YourBench génère des données ancrées dans l'entrée fournie plutôt que de s'appuyer sur les connaissances paramétriques postérieures des modèles, nous introduisons également Tempora-0325, un nouveau jeu de données de plus de 7 000 documents diversifiés, publiés exclusivement après mars 2025. Notre analyse approfondie couvre 26 modèles de pointe issus de 7 grandes familles, avec des tailles variées (3 à 671 milliards de paramètres), pour valider la qualité des évaluations générées à travers des vérifications algorithmiques rigoureuses (par exemple, l'ancrage des citations) et des évaluations humaines. Nous mettons à disposition la bibliothèque YourBench, le jeu de données Tempora-0325, plus de 150 000 paires de questions-réponses basées sur Tempora, ainsi que toutes les traces d'évaluation et d'inférence, afin de faciliter la recherche reproductible et de permettre à la communauté de générer des benchmarks sur mesure à la demande, favorisant ainsi une évaluation des LLM plus pertinente et fiable.
English
Evaluating large language models (LLMs) effectively remains a critical
bottleneck, as traditional static benchmarks suffer from saturation and
contamination, while human evaluations are costly and slow. This hinders timely
or domain-specific assessment, crucial for real-world applications. We
introduce YourBench, a novel, open-source framework that addresses these
limitations by enabling dynamic, automated generation of reliable, up-to-date,
and domain-tailored benchmarks cheaply and without manual annotation, directly
from user-provided documents. We demonstrate its efficacy by replicating 7
diverse MMLU subsets using minimal source text, achieving this for under 15 USD
in total inference costs while perfectly preserving the relative model
performance rankings (Spearman Rho = 1) observed on the original benchmark. To
ensure that YourBench generates data grounded in provided input instead of
relying on posterior parametric knowledge in models, we also introduce
Tempora-0325, a novel dataset of over 7K diverse documents, published
exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models
from 7 major families across varying scales (3-671B parameters) to validate the
quality of generated evaluations through rigorous algorithmic checks (e.g.,
citation grounding) and human assessments. We release the YourBench library,
the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all
evaluation and inference traces to facilitate reproducible research and empower
the community to generate bespoke benchmarks on demand, fostering more relevant
and trustworthy LLM evaluation.Summary
AI-Generated Summary