TableBench: Ein umfassender und anspruchsvoller Benchmark für die Beantwortung von Tabellenfragen

papers.abstract

Die jüngsten Fortschritte bei Large Language Models (LLMs) haben die Interpretation und Verarbeitung von tabellarischen Daten deutlich verbessert und bisher unvorstellbare Fähigkeiten eingeführt. Trotz dieser Errungenschaften stoßen LLMs immer noch auf erhebliche Herausforderungen bei der Anwendung in industriellen Szenarien, insbesondere aufgrund der erhöhten Komplexität des erforderlichen Denkens mit realen tabellarischen Daten. Dies unterstreicht eine bemerkenswerte Diskrepanz zwischen akademischen Benchmarks und praktischen Anwendungen. Um diese Diskrepanz zu adressieren, führen wir eine detaillierte Untersuchung zur Anwendung von tabellarischen Daten in industriellen Szenarien durch und schlagen einen umfassenden und komplexen Benchmark namens TableBench vor, der 18 Felder innerhalb von vier Hauptkategorien von Table Question Answering (TableQA) Fähigkeiten umfasst. Darüber hinaus stellen wir TableLLM vor, das auf unserem sorgfältig erstellten Trainingssatz TableInstruct trainiert wurde und vergleichbare Leistungen mit GPT-3.5 erzielt. Umfangreiche Experimente, die auf TableBench durchgeführt wurden, zeigen, dass sowohl Open-Source als auch proprietäre LLMs noch erhebliches Verbesserungspotenzial haben, um den Anforderungen der realen Welt gerecht zu werden, wobei das fortschrittlichste Modell, GPT-4, nur eine bescheidene Punktzahl im Vergleich zu Menschen erreicht.

English

Recent advancements in Large Language Models (LLMs) have markedly enhanced the interpretation and processing of tabular data, introducing previously unimaginable capabilities. Despite these achievements, LLMs still encounter significant challenges when applied in industrial scenarios, particularly due to the increased complexity of reasoning required with real-world tabular data, underscoring a notable disparity between academic benchmarks and practical applications. To address this discrepancy, we conduct a detailed investigation into the application of tabular data in industrial scenarios and propose a comprehensive and complex benchmark TableBench, including 18 fields within four major categories of table question answering (TableQA) capabilities. Furthermore, we introduce TableLLM, trained on our meticulously constructed training set TableInstruct, achieving comparable performance with GPT-3.5. Massive experiments conducted on TableBench indicate that both open-source and proprietary LLMs still have significant room for improvement to meet real-world demands, where the most advanced model, GPT-4, achieves only a modest score compared to humans.

TableBench: Ein umfassender und anspruchsvoller Benchmark für die Beantwortung von Tabellenfragen

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

papers.abstract

Support