arXiVeri: Automatische Tabellenverifizierung mit GPT
arXiVeri: Automatic table verification with GPT
June 13, 2023
Autoren: Gyungin Shin, Weidi Xie, Samuel Albanie
cs.AI
Zusammenfassung
Ohne eine genaue Transkription numerischer Daten in wissenschaftlichen Dokumenten kann ein Wissenschaftler keine präzisen Schlussfolgerungen ziehen. Leider ist der Prozess des Kopierens numerischer Daten von einem Papier in ein anderer anfällig für menschliche Fehler. In diesem Artikel schlagen wir vor, diese Herausforderung durch die neuartige Aufgabe der automatischen Tabellenverifizierung (AutoTV) zu bewältigen, bei der es darum geht, die Genauigkeit numerischer Daten in Tabellen durch den Abgleich mit zitierten Quellen zu überprüfen. Um diese Aufgabe zu unterstützen, stellen wir einen neuen Benchmark vor, arXiVeri, der Tabellendaten aus frei zugänglichen akademischen Artikeln auf arXiv umfasst. Wir führen Metriken ein, um die Leistung eines Tabellenverifizierers in zwei Schlüsselbereichen zu bewerten: (i) Tabellenabgleich, bei dem es darum geht, die Quelltabelle in einem zitierten Dokument zu identifizieren, die einer Zieltabelle entspricht, und (ii) Zellenabgleich, bei dem es darum geht, gemeinsame Zellen zwischen einer Ziel- und einer Quelltabelle zu lokalisieren und ihre Zeilen- und Spaltenindizes genau zu bestimmen. Durch die Nutzung der flexiblen Fähigkeiten moderner großer Sprachmodelle (LLMs) schlagen wir einfache Baselines für die Tabellenverifizierung vor. Unsere Ergebnisse unterstreichen die Komplexität dieser Aufgabe, selbst für state-of-the-art LLMs wie OpenAI's GPT-4. Der Code und der Benchmark werden öffentlich zugänglich gemacht.
English
Without accurate transcription of numerical data in scientific documents, a
scientist cannot draw accurate conclusions. Unfortunately, the process of
copying numerical data from one paper to another is prone to human error. In
this paper, we propose to meet this challenge through the novel task of
automatic table verification (AutoTV), in which the objective is to verify the
accuracy of numerical data in tables by cross-referencing cited sources. To
support this task, we propose a new benchmark, arXiVeri, which comprises
tabular data drawn from open-access academic papers on arXiv. We introduce
metrics to evaluate the performance of a table verifier in two key areas: (i)
table matching, which aims to identify the source table in a cited document
that corresponds to a target table, and (ii) cell matching, which aims to
locate shared cells between a target and source table and identify their row
and column indices accurately. By leveraging the flexible capabilities of
modern large language models (LLMs), we propose simple baselines for table
verification. Our findings highlight the complexity of this task, even for
state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made
publicly available.