ChatPaper.aiChatPaper

TableBench: Een uitgebreide en complexe benchmark voor tabelvraagbeantwoording

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

August 17, 2024
Auteurs: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI

Samenvatting

Recente vooruitgang in Large Language Models (LLM's) heeft de interpretatie en verwerking van tabelgegevens aanzienlijk verbeterd, waarbij voorheen ondenkbare mogelijkheden zijn geïntroduceerd. Ondanks deze prestaties, ondervinden LLM's nog steeds aanzienlijke uitdagingen wanneer ze worden toegepast in industriële scenario's, met name vanwege de toegenomen complexiteit van redeneren die vereist is bij real-world tabelgegevens, wat een opmerkelijk verschil tussen academische benchmarks en praktische toepassingen benadrukt. Om dit verschil aan te pakken, voeren we een gedetailleerd onderzoek uit naar de toepassing van tabelgegevens in industriële scenario's en stellen we een uitgebreide en complexe benchmark voor, TableBench, die 18 vakgebieden omvat binnen vier hoofdcategorieën van tabelvraagbeantwoordingsmogelijkheden (TableQA). Bovendien introduceren we TableLLM, getraind op onze zorgvuldig samengestelde trainingsset TableInstruct, dat vergelijkbare prestaties behaalt met GPT-3.5. Uitgebreide experimenten uitgevoerd op TableBench geven aan dat zowel open-source als propriëtaire LLM's nog aanzienlijke ruimte voor verbetering hebben om aan de eisen van de echte wereld te voldoen, waarbij het meest geavanceerde model, GPT-4, slechts een bescheiden score behaalt in vergelijking met mensen.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced the interpretation and processing of tabular data, introducing previously unimaginable capabilities. Despite these achievements, LLMs still encounter significant challenges when applied in industrial scenarios, particularly due to the increased complexity of reasoning required with real-world tabular data, underscoring a notable disparity between academic benchmarks and practical applications. To address this discrepancy, we conduct a detailed investigation into the application of tabular data in industrial scenarios and propose a comprehensive and complex benchmark TableBench, including 18 fields within four major categories of table question answering (TableQA) capabilities. Furthermore, we introduce TableLLM, trained on our meticulously constructed training set TableInstruct, achieving comparable performance with GPT-3.5. Massive experiments conducted on TableBench indicate that both open-source and proprietary LLMs still have significant room for improvement to meet real-world demands, where the most advanced model, GPT-4, achieves only a modest score compared to humans.

Summary

AI-Generated Summary

PDF533November 17, 2024