arXiVeri: Автоматическая проверка таблиц с использованием GPT
arXiVeri: Automatic table verification with GPT
June 13, 2023
Авторы: Gyungin Shin, Weidi Xie, Samuel Albanie
cs.AI
Аннотация
Без точной транскрипции числовых данных в научных документах ученый не может сделать достоверные выводы. К сожалению, процесс копирования числовых данных из одной статьи в другую подвержен человеческим ошибкам. В данной работе мы предлагаем решить эту проблему с помощью новой задачи автоматической проверки таблиц (AutoTV), целью которой является проверка точности числовых данных в таблицах путем перекрестного сопоставления с цитируемыми источниками. Для поддержки этой задачи мы предлагаем новый эталонный набор данных arXiVeri, который включает табличные данные, извлеченные из открытых научных статей на arXiv. Мы вводим метрики для оценки производительности системы проверки таблиц в двух ключевых областях: (i) сопоставление таблиц, целью которого является идентификация исходной таблицы в цитируемом документе, соответствующей целевой таблице, и (ii) сопоставление ячеек, целью которого является точное определение общих ячеек между целевой и исходной таблицами и их индексов строк и столбцов. Используя гибкие возможности современных больших языковых моделей (LLM), мы предлагаем простые базовые подходы для проверки таблиц. Наши результаты подчеркивают сложность этой задачи даже для передовых LLM, таких как GPT-4 от OpenAI. Код и эталонный набор данных будут опубликованы в открытом доступе.
English
Without accurate transcription of numerical data in scientific documents, a
scientist cannot draw accurate conclusions. Unfortunately, the process of
copying numerical data from one paper to another is prone to human error. In
this paper, we propose to meet this challenge through the novel task of
automatic table verification (AutoTV), in which the objective is to verify the
accuracy of numerical data in tables by cross-referencing cited sources. To
support this task, we propose a new benchmark, arXiVeri, which comprises
tabular data drawn from open-access academic papers on arXiv. We introduce
metrics to evaluate the performance of a table verifier in two key areas: (i)
table matching, which aims to identify the source table in a cited document
that corresponds to a target table, and (ii) cell matching, which aims to
locate shared cells between a target and source table and identify their row
and column indices accurately. By leveraging the flexible capabilities of
modern large language models (LLMs), we propose simple baselines for table
verification. Our findings highlight the complexity of this task, even for
state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made
publicly available.