RepLiQA: Un Dataset di Domande e Risposte per Valutare i Modelli Linguistici su Contenuto Non Visto

Abstract

I Large Language Model (LLM) vengono addestrati su enormi quantità di dati, la maggior parte dei quali viene raccolta automaticamente da internet. Questi dati includono documenti enciclopedici che contengono una vasta quantità di conoscenza generale (ad esempio, Wikipedia), ma che potrebbero sovrapporsi ai dataset di benchmark utilizzati per valutare gli LLM. Di conseguenza, valutare i modelli su porzioni di test che potrebbero essere finite nel set di addestramento rischia di portare a conclusioni fuorvianti. Per promuovere una valutazione solida dei modelli linguistici, introduciamo un nuovo dataset di test chiamato RepLiQA, adatto per attività di risposta alle domande e recupero di argomenti. RepLiQA è una raccolta di cinque suddivisioni di set di test, quattro delle quali non sono mai state pubblicate su internet o esposte alle API degli LLM prima di questa pubblicazione. Ogni campione in RepLiQA comprende: (1) un documento di riferimento creato da un annotatore umano e che descrive uno scenario immaginario (ad esempio, un articolo di giornale) assente da internet; (2) una domanda sull'argomento del documento; (3) una risposta corretta derivata direttamente dalle informazioni nel documento; e (4) il paragrafo estratto dal documento di riferimento che contiene la risposta. In questo modo, risposte accurate possono essere generate solo se un modello è in grado di trovare contenuti rilevanti all'interno del documento fornito. Abbiamo eseguito un benchmark su larga scala che include diversi LLM all'avanguardia per evidenziare le differenze di prestazione tra modelli di vari tipi e dimensioni in un contesto di modellazione linguistica condizionale. Le suddivisioni rilasciate di RepLiQA sono disponibili qui: https://huggingface.co/datasets/ServiceNow/repliqa.

English

Large Language Models (LLMs) are trained on vast amounts of data, most of which is automatically scraped from the internet. This data includes encyclopedic documents that harbor a vast amount of general knowledge (e.g., Wikipedia) but also potentially overlap with benchmark datasets used for evaluating LLMs. Consequently, evaluating models on test splits that might have leaked into the training set is prone to misleading conclusions. To foster sound evaluation of language models, we introduce a new test dataset named RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a collection of five splits of test sets, four of which have not been released to the internet or exposed to LLM APIs prior to this publication. Each sample in RepLiQA comprises (1) a reference document crafted by a human annotator and depicting an imaginary scenario (e.g., a news article) absent from the internet; (2) a question about the document's topic; (3) a ground-truth answer derived directly from the information in the document; and (4) the paragraph extracted from the reference document containing the answer. As such, accurate answers can only be generated if a model can find relevant content within the provided document. We run a large-scale benchmark comprising several state-of-the-art LLMs to uncover differences in performance across models of various types and sizes in a context-conditional language modeling setting. Released splits of RepLiQA can be found here: https://huggingface.co/datasets/ServiceNow/repliqa.

RepLiQA: Un Dataset di Domande e Risposte per Valutare i Modelli Linguistici su Contenuto Non Visto

RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

Abstract

Support