TableBench: Un banco de pruebas completo y complejo para responder preguntas sobre tablas.
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
August 17, 2024
Autores: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI
Resumen
Los avances recientes en Modelos de Lenguaje de Gran Tamaño (LLMs) han mejorado notablemente la interpretación y procesamiento de datos tabulares, introduciendo capacidades previamente inimaginables. A pesar de estos logros, los LLMs aún enfrentan desafíos significativos al ser aplicados en escenarios industriales, especialmente debido a la mayor complejidad de razonamiento requerida con datos tabulares del mundo real, subrayando una notable disparidad entre los puntos de referencia académicos y las aplicaciones prácticas. Para abordar esta discrepancia, llevamos a cabo una investigación detallada sobre la aplicación de datos tabulares en escenarios industriales y proponemos un benchmark completo y complejo, TableBench, que incluye 18 campos dentro de cuatro categorías principales de capacidades de respuesta a preguntas de tablas (TableQA). Además, presentamos TableLLM, entrenado en nuestro detallado conjunto de entrenamiento, TableInstruct, logrando un rendimiento comparable con GPT-3.5. Experimentos masivos realizados en TableBench indican que tanto los LLMs de código abierto como los propietarios todavía tienen un amplio margen de mejora para satisfacer las demandas del mundo real, donde el modelo más avanzado, GPT-4, alcanza solo una puntuación modesta en comparación con los humanos.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced
the interpretation and processing of tabular data, introducing previously
unimaginable capabilities. Despite these achievements, LLMs still encounter
significant challenges when applied in industrial scenarios, particularly due
to the increased complexity of reasoning required with real-world tabular data,
underscoring a notable disparity between academic benchmarks and practical
applications. To address this discrepancy, we conduct a detailed investigation
into the application of tabular data in industrial scenarios and propose a
comprehensive and complex benchmark TableBench, including 18 fields within four
major categories of table question answering (TableQA) capabilities.
Furthermore, we introduce TableLLM, trained on our meticulously constructed
training set TableInstruct, achieving comparable performance with GPT-3.5.
Massive experiments conducted on TableBench indicate that both open-source and
proprietary LLMs still have significant room for improvement to meet real-world
demands, where the most advanced model, GPT-4, achieves only a modest score
compared to humans.Summary
AI-Generated Summary