arXiVeri: Verifica automatica delle tabelle con GPT
arXiVeri: Automatic table verification with GPT
June 13, 2023
Autori: Gyungin Shin, Weidi Xie, Samuel Albanie
cs.AI
Abstract
Senza una trascrizione accurata dei dati numerici nei documenti scientifici, uno scienziato non può trarre conclusioni precise. Purtroppo, il processo di copia dei dati numerici da un articolo a un altro è soggetto a errori umani. In questo articolo, proponiamo di affrontare questa sfida attraverso il nuovo compito della verifica automatica delle tabelle (AutoTV), il cui obiettivo è verificare l'accuratezza dei dati numerici nelle tabelle confrontandoli con le fonti citate. Per supportare questo compito, introduciamo un nuovo benchmark, arXiVeri, che comprende dati tabulari estratti da articoli accademici ad accesso aperto su arXiv. Proponiamo metriche per valutare le prestazioni di un verificatore di tabelle in due aree chiave: (i) l'abbinamento delle tabelle, che mira a identificare la tabella di origine in un documento citato che corrisponde a una tabella di destinazione, e (ii) l'abbinamento delle celle, che mira a individuare le celle condivise tra una tabella di destinazione e una di origine e a identificare con precisione i loro indici di riga e colonna. Sfruttando le capacità flessibili dei moderni modelli linguistici di grandi dimensioni (LLM), proponiamo semplici baseline per la verifica delle tabelle. I nostri risultati evidenziano la complessità di questo compito, anche per LLM all'avanguardia come GPT-4 di OpenAI. Il codice e il benchmark saranno resi pubblicamente disponibili.
English
Without accurate transcription of numerical data in scientific documents, a
scientist cannot draw accurate conclusions. Unfortunately, the process of
copying numerical data from one paper to another is prone to human error. In
this paper, we propose to meet this challenge through the novel task of
automatic table verification (AutoTV), in which the objective is to verify the
accuracy of numerical data in tables by cross-referencing cited sources. To
support this task, we propose a new benchmark, arXiVeri, which comprises
tabular data drawn from open-access academic papers on arXiv. We introduce
metrics to evaluate the performance of a table verifier in two key areas: (i)
table matching, which aims to identify the source table in a cited document
that corresponds to a target table, and (ii) cell matching, which aims to
locate shared cells between a target and source table and identify their row
and column indices accurately. By leveraging the flexible capabilities of
modern large language models (LLMs), we propose simple baselines for table
verification. Our findings highlight the complexity of this task, even for
state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made
publicly available.