arXiVeri: Automatische tabelverificatie met GPT
arXiVeri: Automatic table verification with GPT
June 13, 2023
Auteurs: Gyungin Shin, Weidi Xie, Samuel Albanie
cs.AI
Samenvatting
Zonder nauwkeurige transcriptie van numerieke gegevens in wetenschappelijke documenten kan een wetenschapper geen nauwkeurige conclusies trekken. Helaas is het proces van het kopiëren van numerieke gegevens van het ene naar het andere artikel gevoelig voor menselijke fouten. In dit artikel stellen wij voor om deze uitdaging aan te gaan door middel van de nieuwe taak van automatische tabelverificatie (AutoTV), waarbij het doel is om de nauwkeurigheid van numerieke gegevens in tabellen te verifiëren door middel van kruisverwijzingen naar geciteerde bronnen. Om deze taak te ondersteunen, introduceren wij een nieuwe benchmark, arXiVeri, die bestaat uit tabelgegevens afkomstig uit open-access wetenschappelijke artikelen op arXiv. Wij introduceren metrieken om de prestaties van een tabelverificateur te evalueren op twee belangrijke gebieden: (i) tabelkoppeling, dat als doel heeft de brontabel in een geciteerd document te identificeren die overeenkomt met een doeltabel, en (ii) celkoppeling, dat als doel heeft gedeelde cellen tussen een doeltabel en een brontabel te lokaliseren en hun rij- en kolomindices nauwkeurig te identificeren. Door gebruik te maken van de flexibele mogelijkheden van moderne grote taalmodellen (LLM's), stellen wij eenvoudige basislijnen voor tabelverificatie voor. Onze bevindingen benadrukken de complexiteit van deze taak, zelfs voor state-of-the-art LLM's zoals OpenAI's GPT-4. De code en benchmark zullen publiekelijk beschikbaar worden gemaakt.
English
Without accurate transcription of numerical data in scientific documents, a
scientist cannot draw accurate conclusions. Unfortunately, the process of
copying numerical data from one paper to another is prone to human error. In
this paper, we propose to meet this challenge through the novel task of
automatic table verification (AutoTV), in which the objective is to verify the
accuracy of numerical data in tables by cross-referencing cited sources. To
support this task, we propose a new benchmark, arXiVeri, which comprises
tabular data drawn from open-access academic papers on arXiv. We introduce
metrics to evaluate the performance of a table verifier in two key areas: (i)
table matching, which aims to identify the source table in a cited document
that corresponds to a target table, and (ii) cell matching, which aims to
locate shared cells between a target and source table and identify their row
and column indices accurately. By leveraging the flexible capabilities of
modern large language models (LLMs), we propose simple baselines for table
verification. Our findings highlight the complexity of this task, even for
state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made
publicly available.