TableBench : un banc d'essai complet et complexe pour la réponse aux questions sur les tableaux
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
August 17, 2024
Auteurs: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI
Résumé
Les récents progrès des Modèles de Langage de Grande Taille (MLGT) ont considérablement amélioré l'interprétation et le traitement des données tabulaires, introduisant des capacités auparavant inimaginables. Malgré ces réalisations, les MLGT rencontrent encore des défis significatifs lorsqu'ils sont appliqués dans des scénarios industriels, notamment en raison de la complexité accrue du raisonnement requis avec des données tabulaires du monde réel, soulignant une disparité notable entre les références académiques et les applications pratiques. Pour résoudre cette disparité, nous menons une enquête détaillée sur l'application des données tabulaires dans des scénarios industriels et proposons un banc d'essai complet et complexe, TableBench, comprenant 18 champs répartis en quatre grandes catégories de capacités de réponse aux questions tabulaires (TableQA). De plus, nous introduisons TableMLGT, formé sur notre ensemble d'entraînement méticuleusement construit, TableInstruct, atteignant des performances comparables à celles de GPT-3.5. Des expériences massives menées sur TableBench indiquent que tant les MLGT open-source que propriétaires ont encore un important potentiel d'amélioration pour répondre aux exigences du monde réel, où le modèle le plus avancé, GPT-4, n'obtient qu'un score modeste par rapport aux humains.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced
the interpretation and processing of tabular data, introducing previously
unimaginable capabilities. Despite these achievements, LLMs still encounter
significant challenges when applied in industrial scenarios, particularly due
to the increased complexity of reasoning required with real-world tabular data,
underscoring a notable disparity between academic benchmarks and practical
applications. To address this discrepancy, we conduct a detailed investigation
into the application of tabular data in industrial scenarios and propose a
comprehensive and complex benchmark TableBench, including 18 fields within four
major categories of table question answering (TableQA) capabilities.
Furthermore, we introduce TableLLM, trained on our meticulously constructed
training set TableInstruct, achieving comparable performance with GPT-3.5.
Massive experiments conducted on TableBench indicate that both open-source and
proprietary LLMs still have significant room for improvement to meet real-world
demands, where the most advanced model, GPT-4, achieves only a modest score
compared to humans.Summary
AI-Generated Summary