arXiVeri: Verificación automática de tablas con GPT
arXiVeri: Automatic table verification with GPT
June 13, 2023
Autores: Gyungin Shin, Weidi Xie, Samuel Albanie
cs.AI
Resumen
Sin una transcripción precisa de los datos numéricos en documentos científicos, un investigador no puede llegar a conclusiones exactas. Lamentablemente, el proceso de copiar datos numéricos de un artículo a otro es propenso a errores humanos. En este artículo, proponemos abordar este desafío mediante la novedosa tarea de verificación automática de tablas (AutoTV), cuyo objetivo es verificar la precisión de los datos numéricos en tablas mediante la consulta cruzada de fuentes citadas. Para respaldar esta tarea, presentamos un nuevo punto de referencia, arXiVeri, que incluye datos tabulares extraídos de artículos académicos de acceso abierto en arXiv. Introducimos métricas para evaluar el rendimiento de un verificador de tablas en dos áreas clave: (i) la coincidencia de tablas, que busca identificar la tabla fuente en un documento citado que corresponde a una tabla objetivo, y (ii) la coincidencia de celdas, que tiene como objetivo localizar celdas compartidas entre una tabla objetivo y una fuente, identificando con precisión sus índices de fila y columna. Al aprovechar las capacidades flexibles de los modelos de lenguaje grandes (LLMs) modernos, proponemos líneas base simples para la verificación de tablas. Nuestros hallazgos resaltan la complejidad de esta tarea, incluso para LLMs de última generación como GPT-4 de OpenAI. El código y el punto de referencia estarán disponibles públicamente.
English
Without accurate transcription of numerical data in scientific documents, a
scientist cannot draw accurate conclusions. Unfortunately, the process of
copying numerical data from one paper to another is prone to human error. In
this paper, we propose to meet this challenge through the novel task of
automatic table verification (AutoTV), in which the objective is to verify the
accuracy of numerical data in tables by cross-referencing cited sources. To
support this task, we propose a new benchmark, arXiVeri, which comprises
tabular data drawn from open-access academic papers on arXiv. We introduce
metrics to evaluate the performance of a table verifier in two key areas: (i)
table matching, which aims to identify the source table in a cited document
that corresponds to a target table, and (ii) cell matching, which aims to
locate shared cells between a target and source table and identify their row
and column indices accurately. By leveraging the flexible capabilities of
modern large language models (LLMs), we propose simple baselines for table
verification. Our findings highlight the complexity of this task, even for
state-of-the-art LLMs like OpenAI's GPT-4. The code and benchmark will be made
publicly available.