ChatPaper.aiChatPaper

TableBench: Um Benchmark Abrangente e Complexo para Responder a Perguntas sobre Tabelas

TableBench: A Comprehensive and Complex Benchmark for Table Question Answering

August 17, 2024
Autores: Xianjie Wu, Jian Yang, Linzheng Chai, Ge Zhang, Jiaheng Liu, Xinrun Du, Di Liang, Daixin Shu, Xianfu Cheng, Tianzhen Sun, Guanglin Niu, Tongliang Li, Zhoujun Li
cs.AI

Resumo

Avanços recentes em Modelos de Linguagem de Grande Escala (LLMs) têm melhorado significativamente a interpretação e processamento de dados tabulares, introduzindo capacidades anteriormente inimagináveis. Apesar dessas conquistas, os LLMs ainda enfrentam desafios significativos quando aplicados em cenários industriais, especialmente devido à maior complexidade de raciocínio necessária com dados tabulares do mundo real, destacando uma disparidade notável entre benchmarks acadêmicos e aplicações práticas. Para lidar com essa discrepância, realizamos uma investigação detalhada sobre a aplicação de dados tabulares em cenários industriais e propomos um benchmark abrangente e complexo, TableBench, incluindo 18 campos em quatro grandes categorias de capacidades de questionamento de tabelas (TableQA). Além disso, apresentamos o TableLLM, treinado em nosso conjunto de treinamento meticulosamente construído, TableInstruct, alcançando desempenho comparável ao GPT-3.5. Experimentos massivos realizados no TableBench indicam que tanto LLMs de código aberto quanto proprietários ainda têm um espaço significativo para melhorias para atender às demandas do mundo real, onde o modelo mais avançado, GPT-4, alcança apenas uma pontuação modesta em comparação com humanos.
English
Recent advancements in Large Language Models (LLMs) have markedly enhanced the interpretation and processing of tabular data, introducing previously unimaginable capabilities. Despite these achievements, LLMs still encounter significant challenges when applied in industrial scenarios, particularly due to the increased complexity of reasoning required with real-world tabular data, underscoring a notable disparity between academic benchmarks and practical applications. To address this discrepancy, we conduct a detailed investigation into the application of tabular data in industrial scenarios and propose a comprehensive and complex benchmark TableBench, including 18 fields within four major categories of table question answering (TableQA) capabilities. Furthermore, we introduce TableLLM, trained on our meticulously constructed training set TableInstruct, achieving comparable performance with GPT-3.5. Massive experiments conducted on TableBench indicate that both open-source and proprietary LLMs still have significant room for improvement to meet real-world demands, where the most advanced model, GPT-4, achieves only a modest score compared to humans.

Summary

AI-Generated Summary

PDF533November 17, 2024