ChatPaper.aiChatPaper

TableBench: Комплексный и обширный бенчмарк для ответов на вопросы о таблицах

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

August 17, 2024
Авторы: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI

Аннотация

Недавние достижения в области больших языковых моделей (LLM) значительно улучшили интерпретацию и обработку табличных данных, вводя ранее невообразимые возможности. Несмотря на эти достижения, LLM по-прежнему сталкиваются с значительными проблемами при применении в промышленных сценариях, особенно из-за увеличенной сложности рассуждений, необходимых для работы с реальными табличными данными, подчеркивая значительное расхождение между академическими бенчмарками и практическими применениями. Для решения этого расхождения мы проводим детальное исследование применения табличных данных в промышленных сценариях и предлагаем комплексный и сложный бенчмарк TableBench, включающий 18 полей в четырех основных категориях возможностей ответов на вопросы о таблицах (TableQA). Кроме того, мы представляем TableLLM, обученную на нашем тщательно составленном обучающем наборе TableInstruct, достигающую сравнимой производительности с GPT-3.5. Масштабные эксперименты, проведенные на TableBench, показывают, что как открытые, так и закрытые LLM по-прежнему имеют значительный потенциал для улучшения, чтобы удовлетворить требования реального мира, где самая передовая модель, GPT-4, достигает лишь скромного показателя по сравнению с людьми.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced the interpretation and processing of tabular data, introducing previously unimaginable capabilities. Despite these achievements, LLMs still encounter significant challenges when applied in industrial scenarios, particularly due to the increased complexity of reasoning required with real-world tabular data, underscoring a notable disparity between academic benchmarks and practical applications. To address this discrepancy, we conduct a detailed investigation into the application of tabular data in industrial scenarios and propose a comprehensive and complex benchmark TableBench, including 18 fields within four major categories of table question answering (TableQA) capabilities. Furthermore, we introduce TableLLM, trained on our meticulously constructed training set TableInstruct, achieving comparable performance with GPT-3.5. Massive experiments conducted on TableBench indicate that both open-source and proprietary LLMs still have significant room for improvement to meet real-world demands, where the most advanced model, GPT-4, achieves only a modest score compared to humans.

Summary

AI-Generated Summary

PDF533November 17, 2024