arXiVeri : Vérification automatique des tableaux avec GPT
arXiVeri: Automatic table verification with GPT
June 13, 2023
Auteurs: Gyungin Shin, Weidi Xie, Samuel Albanie
cs.AI
Résumé
Sans une transcription précise des données numériques dans les documents scientifiques, un chercheur ne peut pas tirer de conclusions exactes. Malheureusement, le processus de copie des données numériques d'un article à un autre est sujet à des erreurs humaines. Dans cet article, nous proposons de relever ce défi grâce à la nouvelle tâche de vérification automatique de tableaux (AutoTV), dont l'objectif est de vérifier l'exactitude des données numériques dans les tableaux en les recoupant avec les sources citées. Pour soutenir cette tâche, nous proposons un nouveau benchmark, arXiVeri, qui comprend des données tabulaires extraites d'articles académiques en libre accès sur arXiv. Nous introduisons des métriques pour évaluer la performance d'un vérificateur de tableaux dans deux domaines clés : (i) l'appariement de tableaux, qui vise à identifier le tableau source dans un document cité correspondant à un tableau cible, et (ii) l'appariement de cellules, qui vise à localiser les cellules communes entre un tableau cible et un tableau source et à identifier leurs indices de ligne et de colonne avec précision. En exploitant les capacités flexibles des modèles de langage modernes (LLMs), nous proposons des bases simples pour la vérification de tableaux. Nos résultats mettent en lumière la complexité de cette tâche, même pour les LLMs de pointe comme GPT-4 d'OpenAI. Le code et le benchmark seront rendus publics.
English
Without accurate transcription of numerical data in scientific documents, a
scientist cannot draw accurate conclusions. Unfortunately, the process of
copying numerical data from one paper to another is prone to human error. In
this paper, we propose to meet this challenge through the novel task of
automatic table verification (AutoTV), in which the objective is to verify the
accuracy of numerical data in tables by cross-referencing cited sources. To
support this task, we propose a new benchmark, arXiVeri, which comprises
tabular data drawn from open-access academic papers on arXiv. We introduce
metrics to evaluate the performance of a table verifier in two key areas: (i)
table matching, which aims to identify the source table in a cited document
that corresponds to a target table, and (ii) cell matching, which aims to
locate shared cells between a target and source table and identify their row
and column indices accurately. By leveraging the flexible capabilities of
modern large language models (LLMs), we propose simple baselines for table
verification. Our findings highlight the complexity of this task, even for
state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made
publicly available.