RepLiQA: Набор данных для вопросно-ответных систем для оценки LLM на невидимом контенте-ссылках
RepLiQA: A Question-Answering Dataset for Benchmarking LLMs on Unseen Reference Content
June 17, 2024
Авторы: Joao Monteiro, Pierre-Andre Noel, Etienne Marcotte, Sai Rajeswar, Valentina Zantedeschi, David Vazquez, Nicolas Chapados, Christopher Pal, Perouz Taslakian
cs.AI
Аннотация
Большие языковые модели (LLM) обучаются на огромных объемах данных, большинство из которых автоматически извлекается из интернета. Эти данные включают в себя энциклопедические документы, содержащие обширное общее знание (например, Википедия), но также могут перекрываться с наборами данных-бенчмарками, используемыми для оценки LLM. Следовательно, оценка моделей на тестовых разбиениях, которые могли просочиться в обучающий набор, склонна к вводящим в заблуждение выводам. Для поощрения надежной оценки языковых моделей мы представляем новый тестовый набор данных под названием RepLiQA, подходящий для задач вопросно-ответной системы и извлечения тем. RepLiQA представляет собой коллекцию из пяти разбиений тестовых наборов данных, четыре из которых не были опубликованы в интернете или не были доступны через API LLM до настоящей публикации. Каждый образец в RepLiQA включает (1) справочный документ, созданный человеческим аннотатором и описывающий вымышленную ситуацию (например, новостную статью), отсутствующую в интернете; (2) вопрос по теме документа; (3) правильный ответ, извлеченный непосредственно из информации в документе; и (4) абзац из справочного документа, содержащий ответ. Таким образом, точные ответы могут быть сгенерированы только в случае, если модель может найти соответствующий контент в предоставленном документе. Мы проводим масштабный бенчмарк, включающий несколько передовых LLM, чтобы выявить различия в производительности моделей различных типов и размеров в контекстно-условной моделировании языка. Опубликованные разбиения RepLiQA можно найти здесь: https://huggingface.co/datasets/ServiceNow/repliqa.
English
Large Language Models (LLMs) are trained on vast amounts of data, most of
which is automatically scraped from the internet. This data includes
encyclopedic documents that harbor a vast amount of general knowledge (e.g.,
Wikipedia) but also potentially overlap with benchmark datasets used for
evaluating LLMs. Consequently, evaluating models on test splits that might have
leaked into the training set is prone to misleading conclusions. To foster
sound evaluation of language models, we introduce a new test dataset named
RepLiQA, suited for question-answering and topic retrieval tasks. RepLiQA is a
collection of five splits of test sets, four of which have not been released to
the internet or exposed to LLM APIs prior to this publication. Each sample in
RepLiQA comprises (1) a reference document crafted by a human annotator and
depicting an imaginary scenario (e.g., a news article) absent from the
internet; (2) a question about the document's topic; (3) a ground-truth answer
derived directly from the information in the document; and (4) the paragraph
extracted from the reference document containing the answer. As such, accurate
answers can only be generated if a model can find relevant content within the
provided document. We run a large-scale benchmark comprising several
state-of-the-art LLMs to uncover differences in performance across models of
various types and sizes in a context-conditional language modeling setting.
Released splits of RepLiQA can be found here:
https://huggingface.co/datasets/ServiceNow/repliqa.Summary
AI-Generated Summary