RepLiQA: Un Dataset di Domande e Risposte per Valutare i Modelli Linguistici su Contenuto Non Visto
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content
June 17, 2024
Autori: Joao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian
cs.AI
Abstract
I Large Language Model (LLM) vengono addestrati su enormi quantità di dati, la maggior parte dei quali viene raccolta automaticamente da internet. Questi dati includono documenti enciclopedici che contengono una vasta quantità di conoscenza generale (ad esempio, Wikipedia), ma che potrebbero sovrapporsi ai dataset di benchmark utilizzati per valutare gli LLM. Di conseguenza, valutare i modelli su porzioni di test che potrebbero essere finite nel set di addestramento rischia di portare a conclusioni fuorvianti. Per promuovere una valutazione solida dei modelli linguistici, introduciamo un nuovo dataset di test chiamato RepLiQA, adatto per attività di risposta alle domande e recupero di argomenti. RepLiQA è una raccolta di cinque suddivisioni di set di test, quattro delle quali non sono mai state pubblicate su internet o esposte alle API degli LLM prima di questa pubblicazione. Ogni campione in RepLiQA comprende: (1) un documento di riferimento creato da un annotatore umano e che descrive uno scenario immaginario (ad esempio, un articolo di giornale) assente da internet; (2) una domanda sull'argomento del documento; (3) una risposta corretta derivata direttamente dalle informazioni nel documento; e (4) il paragrafo estratto dal documento di riferimento che contiene la risposta. In questo modo, risposte accurate possono essere generate solo se un modello è in grado di trovare contenuti rilevanti all'interno del documento fornito. Abbiamo eseguito un benchmark su larga scala che include diversi LLM all'avanguardia per evidenziare le differenze di prestazione tra modelli di vari tipi e dimensioni in un contesto di modellazione linguistica condizionale. Le suddivisioni rilasciate di RepLiQA sono disponibili qui: https://huggingface.co/datasets/ServiceNow/repliqa.
English
Large Language Models (LLMs) are trained on vast amounts of data, most of
which is automatically scraped from the internet. This data includes
encyclopedic documents that harbor a vast amount of general knowledge (e.g.,
Wikipedia) but also potentially overlap with benchmark datasets used for
evaluating LLMs. Consequently, evaluating models on test splits that might have
leaked into the training set is prone to misleading conclusions. To foster
sound evaluation of language models, we introduce a new test dataset named
RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a
collection of five splits of test sets, four of which have not been released to
the internet or exposed to LLM APIs prior to this publication. Each sample in
RepLiQA comprises (1) a reference document crafted by a human annotator and
depicting an imaginary scenario (e.g., a news article) absent from the
internet; (2) a question about the document's topic; (3) a ground-truth answer
derived directly from the information in the document; and (4) the paragraph
extracted from the reference document containing the answer. As such, accurate
answers can only be generated if a model can find relevant content within the
provided document. We run a large-scale benchmark comprising several
state-of-the-art LLMs to uncover differences in performance across models of
various types and sizes in a context-conditional language modeling setting.
Released splits of RepLiQA can be found here:
https://huggingface.co/datasets/ServiceNow/repliqa.