TableBench: 表形式質問応答のための包括的で複雑なベンチマーク
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
August 17, 2024
著者: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI
要旨
大規模言語モデル(LLMs)の最近の進展により、表形式データの解釈と処理が著しく向上し、これまで想像もできなかった能力が導入されました。しかしながら、これらの成果にもかかわらず、LLMsは産業シナリオでの適用において依然として重大な課題に直面しており、特に実世界の表形式データに必要な推論の複雑さが増していることから、学術的なベンチマークと実用的な応用との間に顕著な隔たりが存在します。この隔たりを解消するため、我々は産業シナリオにおける表形式データの応用について詳細な調査を行い、表形式質問応答(TableQA)能力の4つの主要カテゴリに含まれる18の分野を網羅した包括的で複雑なベンチマーク「TableBench」を提案します。さらに、我々は慎重に構築したトレーニングセット「TableInstruct」で訓練された「TableLLM」を導入し、GPT-3.5と同等の性能を達成しました。TableBenchで実施された大規模な実験により、オープンソースおよびプロプライエタリのLLMsは、実世界の要求を満たすためにまだ大幅な改善の余地があることが示されました。最も先進的なモデルであるGPT-4でさえ、人間と比較して控えめなスコアしか達成していません。
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced
the interpretation and processing of tabular data, introducing previously
unimaginable capabilities. Despite these achievements, LLMs still encounter
significant challenges when applied in industrial scenarios, particularly due
to the increased complexity of reasoning required with real-world tabular data,
underscoring a notable disparity between academic benchmarks and practical
applications. To address this discrepancy, we conduct a detailed investigation
into the application of tabular data in industrial scenarios and propose a
comprehensive and complex benchmark TableBench, including 18 fields within four
major categories of table question answering (TableQA) capabilities.
Furthermore, we introduce TableLLM, trained on our meticulously constructed
training set TableInstruct, achieving comparable performance with GPT-3.5.
Massive experiments conducted on TableBench indicate that both open-source and
proprietary LLMs still have significant room for improvement to meet real-world
demands, where the most advanced model, GPT-4, achieves only a modest score
compared to humans.Summary
AI-Generated Summary