TableBench: Ein umfassender und anspruchsvoller Benchmark für die Beantwortung von Tabellenfragen
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
August 17, 2024
Autoren: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI
Zusammenfassung
Die jüngsten Fortschritte bei Large Language Models (LLMs) haben die Interpretation und Verarbeitung von tabellarischen Daten deutlich verbessert und bisher unvorstellbare Fähigkeiten eingeführt. Trotz dieser Errungenschaften stoßen LLMs immer noch auf erhebliche Herausforderungen bei der Anwendung in industriellen Szenarien, insbesondere aufgrund der erhöhten Komplexität des erforderlichen Denkens mit realen tabellarischen Daten. Dies unterstreicht eine bemerkenswerte Diskrepanz zwischen akademischen Benchmarks und praktischen Anwendungen. Um diese Diskrepanz zu adressieren, führen wir eine detaillierte Untersuchung zur Anwendung von tabellarischen Daten in industriellen Szenarien durch und schlagen einen umfassenden und komplexen Benchmark namens TableBench vor, der 18 Felder innerhalb von vier Hauptkategorien von Table Question Answering (TableQA) Fähigkeiten umfasst. Darüber hinaus stellen wir TableLLM vor, das auf unserem sorgfältig erstellten Trainingssatz TableInstruct trainiert wurde und vergleichbare Leistungen mit GPT-3.5 erzielt. Umfangreiche Experimente, die auf TableBench durchgeführt wurden, zeigen, dass sowohl Open-Source als auch proprietäre LLMs noch erhebliches Verbesserungspotenzial haben, um den Anforderungen der realen Welt gerecht zu werden, wobei das fortschrittlichste Modell, GPT-4, nur eine bescheidene Punktzahl im Vergleich zu Menschen erreicht.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced
the interpretation and processing of tabular data, introducing previously
unimaginable capabilities. Despite these achievements, LLMs still encounter
significant challenges when applied in industrial scenarios, particularly due
to the increased complexity of reasoning required with real-world tabular data,
underscoring a notable disparity between academic benchmarks and practical
applications. To address this discrepancy, we conduct a detailed investigation
into the application of tabular data in industrial scenarios and propose a
comprehensive and complex benchmark TableBench, including 18 fields within four
major categories of table question answering (TableQA) capabilities.
Furthermore, we introduce TableLLM, trained on our meticulously constructed
training set TableInstruct, achieving comparable performance with GPT-3.5.
Massive experiments conducted on TableBench indicate that both open-source and
proprietary LLMs still have significant room for improvement to meet real-world
demands, where the most advanced model, GPT-4, achieves only a modest score
compared to humans.Summary
AI-Generated Summary