arXiVeri: Verifica automatica delle tabelle con GPT

Abstract

Senza una trascrizione accurata dei dati numerici nei documenti scientifici, uno scienziato non può trarre conclusioni precise. Purtroppo, il processo di copia dei dati numerici da un articolo a un altro è soggetto a errori umani. In questo articolo, proponiamo di affrontare questa sfida attraverso il nuovo compito della verifica automatica delle tabelle (AutoTV), il cui obiettivo è verificare l'accuratezza dei dati numerici nelle tabelle confrontandoli con le fonti citate. Per supportare questo compito, introduciamo un nuovo benchmark, arXiVeri, che comprende dati tabulari estratti da articoli accademici ad accesso aperto su arXiv. Proponiamo metriche per valutare le prestazioni di un verificatore di tabelle in due aree chiave: (i) l'abbinamento delle tabelle, che mira a identificare la tabella di origine in un documento citato che corrisponde a una tabella di destinazione, e (ii) l'abbinamento delle celle, che mira a individuare le celle condivise tra una tabella di destinazione e una di origine e a identificare con precisione i loro indici di riga e colonna. Sfruttando le capacità flessibili dei moderni modelli linguistici di grandi dimensioni (LLM), proponiamo semplici baseline per la verifica delle tabelle. I nostri risultati evidenziano la complessità di questo compito, anche per LLM all'avanguardia come GPT-4 di OpenAI. Il codice e il benchmark saranno resi pubblicamente disponibili.

English

Without accurate transcription of numerical data in scientific documents, a scientist cannot draw accurate conclusions. Unfortunately, the process of copying numerical data from one paper to another is prone to human error. In this paper, we propose to meet this challenge through the novel task of automatic table verification (AutoTV), in which the objective is to verify the accuracy of numerical data in tables by cross-referencing cited sources. To support this task, we propose a new benchmark, arXiVeri, which comprises tabular data drawn from open-access academic papers on arXiv. We introduce metrics to evaluate the performance of a table verifier in two key areas: (i) table matching, which aims to identify the source table in a cited document that corresponds to a target table, and (ii) cell matching, which aims to locate shared cells between a target and source table and identify their row and column indices accurately. By leveraging the flexible capabilities of modern large language models (LLMs), we propose simple baselines for table verification. Our findings highlight the complexity of this task, even for state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made publicly available.

arXiVeri: Verifica automatica delle tabelle con GPT

arXiVeri: Automatic table verification with GPT

Abstract

Support