ChatPaper.aiChatPaper

YourBench: Conjuntos de Avaliação Personalizados Fáceis para Todos

YourBench: Easy Custom Evaluation Sets for Everyone

April 2, 2025
Autores: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür
cs.AI

Resumo

A avaliação eficaz de modelos de linguagem de grande escala (LLMs) continua sendo um gargalo crítico, uma vez que os benchmarks estáticos tradicionais sofrem com saturação e contaminação, enquanto as avaliações humanas são caras e lentas. Isso dificulta a avaliação oportuna ou específica de domínio, crucial para aplicações do mundo real. Apresentamos o YourBench, uma estrutura inovadora e de código aberto que aborda essas limitações, permitindo a geração dinâmica e automatizada de benchmarks confiáveis, atualizados e adaptados ao domínio de forma econômica e sem anotação manual, diretamente a partir de documentos fornecidos pelo usuário. Demonstramos sua eficácia ao replicar 7 subconjuntos diversos do MMLU usando textos-fonte mínimos, alcançando isso por menos de 15 USD em custos totais de inferência, enquanto preservamos perfeitamente as classificações de desempenho relativo dos modelos (Spearman Rho = 1) observadas no benchmark original. Para garantir que o YourBench gere dados fundamentados nas entradas fornecidas, em vez de depender de conhecimento paramétrico posterior nos modelos, também introduzimos o Tempora-0325, um novo conjunto de dados com mais de 7 mil documentos diversos, publicados exclusivamente após março de 2025. Nossa análise abrangente abrange 26 modelos de última geração (SoTA) de 7 famílias principais em várias escalas (3-671B parâmetros) para validar a qualidade das avaliações geradas por meio de verificações algorítmicas rigorosas (por exemplo, fundamentação de citações) e avaliações humanas. Disponibilizamos a biblioteca YourBench, o conjunto de dados Tempora-0325, mais de 150 mil pares de perguntas e respostas baseados no Tempora e todos os rastros de avaliação e inferência para facilitar pesquisas reproduzíveis e capacitar a comunidade a gerar benchmarks personalizados sob demanda, promovendo uma avaliação de LLMs mais relevante e confiável.
English
Evaluating large language models (LLMs) effectively remains a critical bottleneck, as traditional static benchmarks suffer from saturation and contamination, while human evaluations are costly and slow. This hinders timely or domain-specific assessment, crucial for real-world applications. We introduce YourBench, a novel, open-source framework that addresses these limitations by enabling dynamic, automated generation of reliable, up-to-date, and domain-tailored benchmarks cheaply and without manual annotation, directly from user-provided documents. We demonstrate its efficacy by replicating 7 diverse MMLU subsets using minimal source text, achieving this for under 15 USD in total inference costs while perfectly preserving the relative model performance rankings (Spearman Rho = 1) observed on the original benchmark. To ensure that YourBench generates data grounded in provided input instead of relying on posterior parametric knowledge in models, we also introduce Tempora-0325, a novel dataset of over 7K diverse documents, published exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models from 7 major families across varying scales (3-671B parameters) to validate the quality of generated evaluations through rigorous algorithmic checks (e.g., citation grounding) and human assessments. We release the YourBench library, the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all evaluation and inference traces to facilitate reproducible research and empower the community to generate bespoke benchmarks on demand, fostering more relevant and trustworthy LLM evaluation.

Summary

AI-Generated Summary

PDF203April 3, 2025