RepLiQA : Un ensemble de données de questions-réponses pour évaluer les modèles de langage sur du contenu de référence inédit
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content
June 17, 2024
Auteurs: Joao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian
cs.AI
Résumé
Les grands modèles de langage (LLMs) sont entraînés sur des quantités massives de données, dont la majorité est automatiquement extraite d'Internet. Ces données incluent des documents encyclopédiques contenant une vaste quantité de connaissances générales (par exemple, Wikipédia), mais elles peuvent également chevaucher les ensembles de données de référence utilisés pour évaluer les LLMs. Par conséquent, évaluer des modèles sur des partitions de test qui auraient pu fuiter dans l'ensemble d'entraînement risque de conduire à des conclusions trompeuses. Pour promouvoir une évaluation rigoureuse des modèles de langage, nous introduisons un nouvel ensemble de données de test nommé RepLiQA, adapté aux tâches de question-réponse et de recherche thématique. RepLiQA est une collection de cinq partitions de jeux de test, dont quatre n'ont jamais été publiées sur Internet ou exposées aux API de LLMs avant cette publication. Chaque échantillon de RepLiQA comprend (1) un document de référence rédigé par un annotateur humain et décrivant un scénario imaginaire (par exemple, un article de presse) absent d'Internet ; (2) une question sur le thème du document ; (3) une réponse de référence dérivée directement des informations contenues dans le document ; et (4) le paragraphe extrait du document de référence contenant la réponse. Ainsi, des réponses précises ne peuvent être générées que si un modèle est capable de trouver un contenu pertinent dans le document fourni. Nous avons réalisé un benchmark à grande échelle incluant plusieurs LLMs de pointe pour révéler les différences de performance entre des modèles de types et de tailles variés dans un contexte de modélisation de langage conditionnel. Les partitions publiées de RepLiQA sont disponibles ici : https://huggingface.co/datasets/ServiceNow/repliqa.
English
Large Language Models (LLMs) are trained on vast amounts of data, most of
which is automatically scraped from the internet. This data includes
encyclopedic documents that harbor a vast amount of general knowledge (e.g.,
Wikipedia) but also potentially overlap with benchmark datasets used for
evaluating LLMs. Consequently, evaluating models on test splits that might have
leaked into the training set is prone to misleading conclusions. To foster
sound evaluation of language models, we introduce a new test dataset named
RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a
collection of five splits of test sets, four of which have not been released to
the internet or exposed to LLM APIs prior to this publication. Each sample in
RepLiQA comprises (1) a reference document crafted by a human annotator and
depicting an imaginary scenario (e.g., a news article) absent from the
internet; (2) a question about the document's topic; (3) a ground-truth answer
derived directly from the information in the document; and (4) the paragraph
extracted from the reference document containing the answer. As such, accurate
answers can only be generated if a model can find relevant content within the
provided document. We run a large-scale benchmark comprising several
state-of-the-art LLMs to uncover differences in performance across models of
various types and sizes in a context-conditional language modeling setting.
Released splits of RepLiQA can be found here:
https://huggingface.co/datasets/ServiceNow/repliqa.Summary
AI-Generated Summary