YourBench: Простые пользовательские наборы для оценки для всех
YourBench: Easy Custom Evaluation Sets for Everyone
April 2, 2025
Авторы: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI
Аннотация
Эффективная оценка больших языковых моделей (LLM) остается серьезной проблемой, поскольку традиционные статические тесты страдают от насыщения и загрязнения, а человеческие оценки дорогостоящи и медленны. Это затрудняет своевременную или предметно-ориентированную оценку, критически важную для реальных приложений. Мы представляем YourBench — новый открытый фреймворк, который устраняет эти ограничения, позволяя динамически и автоматически генерировать надежные, актуальные и адаптированные к конкретной области тесты без дорогостоящей ручной разметки, напрямую из предоставленных пользователем документов. Мы демонстрируем его эффективность, воспроизведя 7 разнообразных подмножеств MMLU с использованием минимального исходного текста, затратив на это менее 15 долларов США на общие вычислительные ресурсы, при этом полностью сохранив относительные ранги производительности моделей (Spearman Rho = 1), наблюдаемые на оригинальном тесте. Чтобы гарантировать, что YourBench генерирует данные, основанные на предоставленных входных данных, а не на апостериорных параметрических знаниях моделей, мы также представляем Tempora-0325 — новый набор данных, содержащий более 7 тысяч разнообразных документов, опубликованных исключительно после марта 2025 года. Наше всестороннее исследование охватывает 26 современных моделей из 7 основных семейств с различными масштабами (3–671 млрд параметров), чтобы подтвердить качество генерируемых оценок с помощью строгих алгоритмических проверок (например, проверки цитирования) и человеческой оценки. Мы публикуем библиотеку YourBench, набор данных Tempora-0325, более 150 тысяч пар вопросов и ответов на основе Tempora, а также все данные для оценки и вычислительные трассы, чтобы способствовать воспроизводимым исследованиям и дать сообществу возможность создавать специализированные тесты по запросу, способствуя более релевантной и надежной оценке LLM.
English
Evaluating large language models (LLMs) effectively remains a critical
bottleneck, as traditional static benchmarks suffer from saturation and
contamination, while human evaluations are costly and slow. This hinders timely
or domain-specific assessment, crucial for real-world applications. We
introduce YourBench, a novel, open-source framework that addresses these
limitations by enabling dynamic, automated generation of reliable, up-to-date,
and domain-tailored benchmarks cheaply and without manual annotation, directly
from user-provided documents. We demonstrate its efficacy by replicating 7
diverse MMLU subsets using minimal source text, achieving this for under 15 USD
in total inference costs while perfectly preserving the relative model
performance rankings (Spearman Rho = 1) observed on the original benchmark. To
ensure that YourBench generates data grounded in provided input instead of
relying on posterior parametric knowledge in models, we also introduce
Tempora-0325, a novel dataset of over 7K diverse documents, published
exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models
from 7 major families across varying scales (3-671B parameters) to validate the
quality of generated evaluations through rigorous algorithmic checks (e.g.,
citation grounding) and human assessments. We release the YourBench library,
the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all
evaluation and inference traces to facilitate reproducible research and empower
the community to generate bespoke benchmarks on demand, fostering more relevant
and trustworthy LLM evaluation.Summary
AI-Generated Summary