YourBench: Einfache benutzerdefinierte Evaluierungssätze für alle
YourBench: Easy Custom Evaluation Sets for Everyone
April 2, 2025
Autoren: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI
Zusammenfassung
Die effektive Bewertung großer Sprachmodelle (LLMs) bleibt ein kritischer Engpass, da traditionelle statische Benchmarks unter Sättigung und Kontamination leiden, während menschliche Bewertungen kostspielig und langsam sind. Dies behindert eine zeitnahe oder domänenspezifische Bewertung, die für reale Anwendungen entscheidend ist. Wir stellen YourBench vor, ein neuartiges, Open-Source-Framework, das diese Einschränkungen überwindet, indem es die dynamische, automatisierte Generierung zuverlässiger, aktueller und domänenspezifischer Benchmarks ermöglicht – kostengünstig und ohne manuelle Annotation, direkt aus von Benutzern bereitgestellten Dokumenten. Wir demonstrieren seine Wirksamkeit, indem wir 7 diverse MMLU-Teilbereiche mit minimalem Quelltext replizieren und dies für insgesamt weniger als 15 USD an Inferenzkosten erreichen, während die relativen Modellleistungsrankings (Spearman Rho = 1) des ursprünglichen Benchmarks perfekt erhalten bleiben. Um sicherzustellen, dass YourBench Daten auf der Grundlage der bereitgestellten Eingabe generiert und nicht auf dem posterioren parametrischen Wissen der Modelle beruht, führen wir auch Tempora-0325 ein, einen neuartigen Datensatz mit über 7.000 diversen Dokumenten, die ausschließlich nach März 2025 veröffentlicht wurden. Unsere umfassende Analyse umfasst 26 State-of-the-Art-Modelle aus 7 großen Familien über verschiedene Skalen (3-671B Parameter), um die Qualität der generierten Bewertungen durch rigorose algorithmische Überprüfungen (z. B. Zitiergrundlage) und menschliche Bewertungen zu validieren. Wir veröffentlichen die YourBench-Bibliothek, den Tempora-0325-Datensatz, über 150.000 Frage-Antwort-Paare basierend auf Tempora sowie alle Bewertungs- und Inferenzspuren, um reproduzierbare Forschung zu ermöglichen und die Gemeinschaft zu befähigen, maßgeschneiderte Benchmarks nach Bedarf zu generieren, wodurch relevantere und vertrauenswürdigere LLM-Bewertungen gefördert werden.
English
Evaluating large language models (LLMs) effectively remains a critical
bottleneck, as traditional static benchmarks suffer from saturation and
contamination, while human evaluations are costly and slow. This hinders timely
or domain-specific assessment, crucial for real-world applications. We
introduce YourBench, a novel, open-source framework that addresses these
limitations by enabling dynamic, automated generation of reliable, up-to-date,
and domain-tailored benchmarks cheaply and without manual annotation, directly
from user-provided documents. We demonstrate its efficacy by replicating 7
diverse MMLU subsets using minimal source text, achieving this for under 15 USD
in total inference costs while perfectly preserving the relative model
performance rankings (Spearman Rho = 1) observed on the original benchmark. To
ensure that YourBench generates data grounded in provided input instead of
relying on posterior parametric knowledge in models, we also introduce
Tempora-0325, a novel dataset of over 7K diverse documents, published
exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models
from 7 major families across varying scales (3-671B parameters) to validate the
quality of generated evaluations through rigorous algorithmic checks (e.g.,
citation grounding) and human assessments. We release the YourBench library,
the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all
evaluation and inference traces to facilitate reproducible research and empower
the community to generate bespoke benchmarks on demand, fostering more relevant
and trustworthy LLM evaluation.Summary
AI-Generated Summary