RepLiQA : Un ensemble de données de questions-réponses pour évaluer les modèles de langage sur du contenu de référence inédit

papers.abstract

Les grands modèles de langage (LLMs) sont entraînés sur des quantités massives de données, dont la majorité est automatiquement extraite d'Internet. Ces données incluent des documents encyclopédiques contenant une vaste quantité de connaissances générales (par exemple, Wikipédia), mais elles peuvent également chevaucher les ensembles de données de référence utilisés pour évaluer les LLMs. Par conséquent, évaluer des modèles sur des partitions de test qui auraient pu fuiter dans l'ensemble d'entraînement risque de conduire à des conclusions trompeuses. Pour promouvoir une évaluation rigoureuse des modèles de langage, nous introduisons un nouvel ensemble de données de test nommé RepLiQA, adapté aux tâches de question-réponse et de recherche thématique. RepLiQA est une collection de cinq partitions de jeux de test, dont quatre n'ont jamais été publiées sur Internet ou exposées aux API de LLMs avant cette publication. Chaque échantillon de RepLiQA comprend (1) un document de référence rédigé par un annotateur humain et décrivant un scénario imaginaire (par exemple, un article de presse) absent d'Internet ; (2) une question sur le thème du document ; (3) une réponse de référence dérivée directement des informations contenues dans le document ; et (4) le paragraphe extrait du document de référence contenant la réponse. Ainsi, des réponses précises ne peuvent être générées que si un modèle est capable de trouver un contenu pertinent dans le document fourni. Nous avons réalisé un benchmark à grande échelle incluant plusieurs LLMs de pointe pour révéler les différences de performance entre des modèles de types et de tailles variés dans un contexte de modélisation de langage conditionnel. Les partitions publiées de RepLiQA sont disponibles ici : https://huggingface.co/datasets/ServiceNow/repliqa.

English

Large Language Models (LLMs) are trained on vast amounts of data, most of which is automatically scraped from the internet. This data includes encyclopedic documents that harbor a vast amount of general knowledge (e.g., Wikipedia) but also potentially overlap with benchmark datasets used for evaluating LLMs. Consequently, evaluating models on test splits that might have leaked into the training set is prone to misleading conclusions. To foster sound evaluation of language models, we introduce a new test dataset named RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a collection of five splits of test sets, four of which have not been released to the internet or exposed to LLM APIs prior to this publication. Each sample in RepLiQA comprises (1) a reference document crafted by a human annotator and depicting an imaginary scenario (e.g., a news article) absent from the internet; (2) a question about the document's topic; (3) a ground-truth answer derived directly from the information in the document; and (4) the paragraph extracted from the reference document containing the answer. As such, accurate answers can only be generated if a model can find relevant content within the provided document. We run a large-scale benchmark comprising several state-of-the-art LLMs to uncover differences in performance across models of various types and sizes in a context-conditional language modeling setting. Released splits of RepLiQA can be found here: https://huggingface.co/datasets/ServiceNow/repliqa.

RepLiQA : Un ensemble de données de questions-réponses pour évaluer les modèles de langage sur du contenu de référence inédit

RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

papers.abstract

Support