TableBench: Un Benchmark Completo e Complesso per il Question Answering su Tabelle
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
August 17, 2024
Autori: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI
Abstract
I recenti progressi nei Large Language Models (LLM) hanno notevolmente migliorato l'interpretazione e l'elaborazione di dati tabellari, introducendo capacità precedentemente inimmaginabili. Nonostante questi risultati, gli LLM incontrano ancora sfide significative quando applicati in scenari industriali, in particolare a causa della maggiore complessità di ragionamento richiesta con dati tabellari del mondo reale, evidenziando un divario notevole tra benchmark accademici e applicazioni pratiche. Per affrontare questa discrepanza, conduciamo un'indagine dettagliata sull'applicazione di dati tabellari in scenari industriali e proponiamo un benchmark completo e complesso, TableBench, che include 18 campi all'interno di quattro categorie principali di capacità di risposta a domande su tabelle (TableQA). Inoltre, introduciamo TableLLM, addestrato sul nostro set di addestramento meticolosamente costruito TableInstruct, raggiungendo prestazioni comparabili a GPT-3.5. Esperimenti massicci condotti su TableBench indicano che sia gli LLM open-source che quelli proprietari hanno ancora un margine significativo di miglioramento per soddisfare le esigenze del mondo reale, dove il modello più avanzato, GPT-4, raggiunge solo un punteggio modesto rispetto agli esseri umani.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced
the interpretation and processing of tabular data, introducing previously
unimaginable capabilities. Despite these achievements, LLMs still encounter
significant challenges when applied in industrial scenarios, particularly due
to the increased complexity of reasoning required with real-world tabular data,
underscoring a notable disparity between academic benchmarks and practical
applications. To address this discrepancy, we conduct a detailed investigation
into the application of tabular data in industrial scenarios and propose a
comprehensive and complex benchmark TableBench, including 18 fields within four
major categories of table question answering (TableQA) capabilities.
Furthermore, we introduce TableLLM, trained on our meticulously constructed
training set TableInstruct, achieving comparable performance with GPT-3.5.
Massive experiments conducted on TableBench indicate that both open-source and
proprietary LLMs still have significant room for improvement to meet real-world
demands, where the most advanced model, GPT-4, achieves only a modest score
compared to humans.