RepLiQA: Een vraag-antwoorddataset voor het benchmarken van LLM's op onbekende referentie-inhoud
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content
June 17, 2024
Auteurs: Joao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian
cs.AI
Samenvatting
Grote Taalmodellen (LLMs) worden getraind op enorme hoeveelheden data, waarvan het merendeel automatisch van het internet wordt geschraapt. Deze data omvat encyclopedische documenten die een schat aan algemene kennis bevatten (bijv. Wikipedia), maar die mogelijk ook overlappen met benchmarkdatasets die worden gebruikt voor het evalueren van LLMs. Als gevolg hiervan kan het evalueren van modellen op testdatasets die mogelijk in de trainingsset zijn terechtgekomen, leiden tot misleidende conclusies. Om een solide evaluatie van taalmogelijkheden te bevorderen, introduceren we een nieuwe testdataset genaamd RepLiQA, geschikt voor vraag-antwoordtaken en het ophalen van onderwerpen. RepLiQA is een verzameling van vijf testdatasets, waarvan er vier niet eerder op het internet zijn vrijgegeven of blootgesteld zijn aan LLM-API's voorafgaand aan deze publicatie. Elk voorbeeld in RepLiQA bestaat uit (1) een referentiedocument dat door een menselijke annotator is gemaakt en een denkbeeldig scenario beschrijft (bijv. een nieuwsartikel) dat niet op het internet voorkomt; (2) een vraag over het onderwerp van het document; (3) een grondwaarheid-antwoord dat rechtstreeks is afgeleid uit de informatie in het document; en (4) de alinea uit het referentiedocument die het antwoord bevat. Hierdoor kunnen nauwkeurige antwoorden alleen worden gegenereerd als een model relevante inhoud binnen het verstrekte document kan vinden. We voeren een grootschalige benchmark uit met verschillende state-of-the-art LLMs om verschillen in prestaties tussen modellen van verschillende typen en groottes te ontdekken in een contextvoorwaardelijke taalmodelinstelling. De vrijgegeven datasets van RepLiQA zijn hier te vinden: https://huggingface.co/datasets/ServiceNow/repliqa.
English
Large Language Models (LLMs) are trained on vast amounts of data, most of
which is automatically scraped from the internet. This data includes
encyclopedic documents that harbor a vast amount of general knowledge (e.g.,
Wikipedia) but also potentially overlap with benchmark datasets used for
evaluating LLMs. Consequently, evaluating models on test splits that might have
leaked into the training set is prone to misleading conclusions. To foster
sound evaluation of language models, we introduce a new test dataset named
RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a
collection of five splits of test sets, four of which have not been released to
the internet or exposed to LLM APIs prior to this publication. Each sample in
RepLiQA comprises (1) a reference document crafted by a human annotator and
depicting an imaginary scenario (e.g., a news article) absent from the
internet; (2) a question about the document's topic; (3) a ground-truth answer
derived directly from the information in the document; and (4) the paragraph
extracted from the reference document containing the answer. As such, accurate
answers can only be generated if a model can find relevant content within the
provided document. We run a large-scale benchmark comprising several
state-of-the-art LLMs to uncover differences in performance across models of
various types and sizes in a context-conditional language modeling setting.
Released splits of RepLiQA can be found here:
https://huggingface.co/datasets/ServiceNow/repliqa.