TableBench: 테이블 질문 응답을 위한 포괄적이고 복잡한 벤치마크
TableBench: A Comprehensive and Complex Benchmark for Table Question Answering
August 17, 2024
저자: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI
초록
최근 대형 언어 모델 (Large Language Models, LLMs)의 발전은 표 형식 데이터의 해석 및 처리를 현저히 향상시켰으며, 이전에 상상할 수 없었던 능력을 소개했습니다. 이러한 성취에도 불구하고, LLMs는 산업 시나리오에서 적용될 때 여전히 중요한 도전에 직면하며, 특히 실제 세계의 표 형식 데이터에 필요한 추론의 증가된 복잡성으로 인해 학술적 벤치마크와 실용적 응용 사이에 현저한 불일치가 강조됩니다. 이 불일치를 해결하기 위해 우리는 산업 시나리오에서 표 형식 데이터의 적용에 대해 자세히 조사하고, 표 질문 응답 (Table Question Answering, TableQA) 능력의 네 가지 주요 범주 내 18개의 필드를 포함하는 포괄적이고 복잡한 벤치마크 TableBench를 제안합니다. 더불어, 저희는 저희가 세심하게 구축한 훈련 세트 TableInstruct에서 훈련된 TableLLM을 소개하여, GPT-3.5와 유사한 성능을 달성했습니다. TableBench에서 수행된 대규모 실험은 오픈 소스 및 프로프리어터리 LLMs가 여전히 실제 세계의 요구를 충족시키기 위해 상당한 개선 여지가 있다는 것을 나타내며, 가장 선진 모델인 GPT-4도 인간과 비교했을 때 다소 저조한 점수를 얻었습니다.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced
the interpretation and processing of tabular data, introducing previously
unimaginable capabilities. Despite these achievements, LLMs still encounter
significant challenges when applied in industrial scenarios, particularly due
to the increased complexity of reasoning required with real-world tabular data,
underscoring a notable disparity between academic benchmarks and practical
applications. To address this discrepancy, we conduct a detailed investigation
into the application of tabular data in industrial scenarios and propose a
comprehensive and complex benchmark TableBench, including 18 fields within four
major categories of table question answering (TableQA) capabilities.
Furthermore, we introduce TableLLM, trained on our meticulously constructed
training set TableInstruct, achieving comparable performance with GPT-3.5.
Massive experiments conducted on TableBench indicate that both open-source and
proprietary LLMs still have significant room for improvement to meet real-world
demands, where the most advanced model, GPT-4, achieves only a modest score
compared to humans.Summary
AI-Generated Summary