RepLiQA: Набор данных для вопросно-ответных систем для оценки LLM на невидимом контенте-ссылках

Аннотация

Большие языковые модели (LLM) обучаются на огромных объемах данных, большинство из которых автоматически извлекается из интернета. Эти данные включают в себя энциклопедические документы, содержащие обширное общее знание (например, Википедия), но также могут перекрываться с наборами данных-бенчмарками, используемыми для оценки LLM. Следовательно, оценка моделей на тестовых разбиениях, которые могли просочиться в обучающий набор, склонна к вводящим в заблуждение выводам. Для поощрения надежной оценки языковых моделей мы представляем новый тестовый набор данных под названием RepLiQA, подходящий для задач вопросно-ответной системы и извлечения тем. RepLiQA представляет собой коллекцию из пяти разбиений тестовых наборов данных, четыре из которых не были опубликованы в интернете или не были доступны через API LLM до настоящей публикации. Каждый образец в RepLiQA включает (1) справочный документ, созданный человеческим аннотатором и описывающий вымышленную ситуацию (например, новостную статью), отсутствующую в интернете; (2) вопрос по теме документа; (3) правильный ответ, извлеченный непосредственно из информации в документе; и (4) абзац из справочного документа, содержащий ответ. Таким образом, точные ответы могут быть сгенерированы только в случае, если модель может найти соответствующий контент в предоставленном документе. Мы проводим масштабный бенчмарк, включающий несколько передовых LLM, чтобы выявить различия в производительности моделей различных типов и размеров в контекстно-условной моделировании языка. Опубликованные разбиения RepLiQA можно найти здесь: https://huggingface.co/datasets/ServiceNow/repliqa.

English

Large Language Models (LLMs) are trained on vast amounts of data, most of which is automatically scraped from the internet. This data includes encyclopedic documents that harbor a vast amount of general knowledge (e.g., Wikipedia) but also potentially overlap with benchmark datasets used for evaluating LLMs. Consequently, evaluating models on test splits that might have leaked into the training set is prone to misleading conclusions. To foster sound evaluation of language models, we introduce a new test dataset named RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a collection of five splits of test sets, four of which have not been released to the internet or exposed to LLM APIs prior to this publication. Each sample in RepLiQA comprises (1) a reference document crafted by a human annotator and depicting an imaginary scenario (e.g., a news article) absent from the internet; (2) a question about the document's topic; (3) a ground-truth answer derived directly from the information in the document; and (4) the paragraph extracted from the reference document containing the answer. As such, accurate answers can only be generated if a model can find relevant content within the provided document. We run a large-scale benchmark comprising several state-of-the-art LLMs to uncover differences in performance across models of various types and sizes in a context-conditional language modeling setting. Released splits of RepLiQA can be found here: https://huggingface.co/datasets/ServiceNow/repliqa.

RepLiQA: Набор данных для вопросно-ответных систем для оценки LLM на невидимом контенте-ссылках

RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content

Аннотация

Support