YourBench: Eenvoudige Aangepaste Evaluatiesets voor Iedereen
YourBench: Easy Custom Evaluation Sets for Everyone
April 2, 2025
Auteurs: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI
Samenvatting
Het effectief evalueren van grote taalmodellen (LLMs) blijft een kritieke
bottleneck, aangezien traditionele statische benchmarks last hebben van verzadiging en
contaminatie, terwijl menselijke evaluaties kostbaar en traag zijn. Dit belemmert tijdige
of domeinspecifieke beoordeling, wat cruciaal is voor praktische toepassingen. Wij
introduceren YourBench, een nieuw, open-source raamwerk dat deze beperkingen aanpakt
door het mogelijk te maken om dynamisch, geautomatiseerd betrouwbare, actuele en
domeingerichte benchmarks te genereren tegen lage kosten en zonder handmatige annotatie,
rechtstreeks vanuit door gebruikers aangeleverde documenten. We demonstreren de effectiviteit
ervan door 7 diverse MMLU-subsets te repliceren met minimale brontekst, wat we bereiken
voor minder dan 15 USD in totale inferentiekosten, terwijl de relatieve modelprestatieranglijsten
(Spearman Rho = 1) die op de originele benchmark werden waargenomen, perfect behouden blijven.
Om ervoor te zorgen dat YourBench gegevens genereert die gebaseerd zijn op de aangeleverde input
in plaats van te vertrouwen op posterior parametrische kennis in modellen, introduceren we ook
Tempora-0325, een nieuwe dataset van meer dan 7K diverse documenten, die exclusief na maart 2025
zijn gepubliceerd. Onze uitgebreide analyse omvat 26 state-of-the-art modellen uit 7 grote families
over verschillende schalen (3-671B parameters) om de kwaliteit van gegenereerde evaluaties te valideren
door middel van rigoureuze algoritmische controles (bijv. citatiegronding) en menselijke beoordelingen.
We geven de YourBench-bibliotheek, de Tempora-0325-dataset, 150k+ vraag-antwoordparen gebaseerd op
Tempora en alle evaluatie- en inferentietraces vrij om reproduceerbaar onderzoek te vergemakkelijken en
de gemeenschap in staat te stellen op maat gemaakte benchmarks op aanvraag te genereren, wat leidt tot
relevantere en betrouwbaardere LLM-evaluatie.
English
Evaluating large language models (LLMs) effectively remains a critical
bottleneck, as traditional static benchmarks suffer from saturation and
contamination, while human evaluations are costly and slow. This hinders timely
or domain-specific assessment, crucial for real-world applications. We
introduce YourBench, a novel, open-source framework that addresses these
limitations by enabling dynamic, automated generation of reliable, up-to-date,
and domain-tailored benchmarks cheaply and without manual annotation, directly
from user-provided documents. We demonstrate its efficacy by replicating 7
diverse MMLU subsets using minimal source text, achieving this for under 15 USD
in total inference costs while perfectly preserving the relative model
performance rankings (Spearman Rho = 1) observed on the original benchmark. To
ensure that YourBench generates data grounded in provided input instead of
relying on posterior parametric knowledge in models, we also introduce
Tempora-0325, a novel dataset of over 7K diverse documents, published
exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models
from 7 major families across varying scales (3-671B parameters) to validate the
quality of generated evaluations through rigorous algorithmic checks (e.g.,
citation grounding) and human assessments. We release the YourBench library,
the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all
evaluation and inference traces to facilitate reproducible research and empower
the community to generate bespoke benchmarks on demand, fostering more relevant
and trustworthy LLM evaluation.