YourBench: 모두를 위한 쉬운 맞춤형 평가 세트
YourBench: Easy Custom Evaluation Sets for Everyone
April 2, 2025
저자: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI
초록
대규모 언어 모델(LLM)을 효과적으로 평가하는 것은 여전히 중요한 과제로 남아 있습니다. 기존의 정적 벤치마크는 포화 및 오염 문제를 겪고 있으며, 인간 평가는 비용이 많이 들고 느립니다. 이는 실생활 응용에 필수적인 시기적절하거나 도메인 특화된 평가를 방해합니다. 우리는 이러한 한계를 해결하기 위해 YourBench라는 새로운 오픈소스 프레임워크를 소개합니다. YourBench는 사용자가 제공한 문서에서 직접 동적이고 자동화된 방식으로 신뢰할 수 있으며 최신 정보를 반영하고 도메인에 맞춤화된 벤치마크를 저렴한 비용으로 생성할 수 있게 해줍니다. 우리는 최소한의 소스 텍스트를 사용하여 7가지 다양한 MMLU 하위 집합을 복제함으로써 그 효용성을 입증했으며, 총 15달러 미만의 추론 비용으로 원본 벤치마크에서 관찰된 상대적 모델 성능 순위(Spearman Rho = 1)를 완벽하게 유지했습니다. YourBench가 모델의 사후 파라메트릭 지식에 의존하지 않고 제공된 입력에 기반한 데이터를 생성하도록 보장하기 위해, 우리는 2025년 3월 이후에만 출판된 7,000개 이상의 다양한 문서로 구성된 새로운 데이터셋인 Tempora-0325도 소개합니다. 우리의 포괄적인 분석은 3-671B 파라미터 범위의 7개 주요 모델 패밀리에서 26개의 최신 모델을 대상으로 하며, 엄격한 알고리즘 검사(예: 인용 근거)와 인간 평가를 통해 생성된 평가의 품질을 검증합니다. 우리는 YourBench 라이브러리, Tempora-0325 데이터셋, Tempora 기반의 15만 개 이상의 질문-답변 쌍, 그리고 모든 평가 및 추론 흔적을 공개하여 재현 가능한 연구를 촉진하고 커뮤니티가 필요에 따라 맞춤형 벤치마크를 생성할 수 있도록 지원함으로써 더 관련성 높고 신뢰할 수 있는 LLM 평가를 조성합니다.
English
Evaluating large language models (LLMs) effectively remains a critical
bottleneck, as traditional static benchmarks suffer from saturation and
contamination, while human evaluations are costly and slow. This hinders timely
or domain-specific assessment, crucial for real-world applications. We
introduce YourBench, a novel, open-source framework that addresses these
limitations by enabling dynamic, automated generation of reliable, up-to-date,
and domain-tailored benchmarks cheaply and without manual annotation, directly
from user-provided documents. We demonstrate its efficacy by replicating 7
diverse MMLU subsets using minimal source text, achieving this for under 15 USD
in total inference costs while perfectly preserving the relative model
performance rankings (Spearman Rho = 1) observed on the original benchmark. To
ensure that YourBench generates data grounded in provided input instead of
relying on posterior parametric knowledge in models, we also introduce
Tempora-0325, a novel dataset of over 7K diverse documents, published
exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models
from 7 major families across varying scales (3-671B parameters) to validate the
quality of generated evaluations through rigorous algorithmic checks (e.g.,
citation grounding) and human assessments. We release the YourBench library,
the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all
evaluation and inference traces to facilitate reproducible research and empower
the community to generate bespoke benchmarks on demand, fostering more relevant
and trustworthy LLM evaluation.Summary
AI-Generated Summary