TabDSR: Decompor, Sanitizar e Racionalizar para Raciocínio Numérico Complexo em Dados Tabulados

Resumo

O raciocínio complexo sobre dados tabulares é crucial na análise de dados do mundo real, contudo, os grandes modelos de linguagem (LLMs) frequentemente apresentam desempenho inferior devido a consultas complexas, dados ruidosos e capacidades numéricas limitadas. Para resolver essas questões, propomos o \method, um framework constituído por: (1) um decompositor de consultas que decompõe questões complexas, (2) um saneador de tabelas que limpa e filtra tabelas ruidosas, e (3) um raciocinador baseado em Programas de Pensamento (PoT) que gera código executável para derivar a resposta final a partir da tabela saneada. Para garantir uma avaliação imparcial e mitigar o vazamento de dados, introduzimos um novo conjunto de dados, o CalTab151, especificamente concebido para o raciocínio numérico complexo sobre tabelas. Resultados experimentais demonstram que o \method supera consistentemente os métodos existentes, alcançando um desempenho de estado da arte (SOTA) com melhorias de precisão de 8,79%, 6,08% e 19,87% no TAT-QA, TableBench e \method, respetivamente. Adicionalmente, o nosso framework integra-se perfeitamente com os LLMs predominantes, fornecendo uma solução robusta para o raciocínio numérico complexo sobre tabelas. Estes resultados evidenciam a eficácia do nosso framework na melhoria do desempenho dos LLMs para o raciocínio numérico complexo sobre dados tabulares. Os dados e o código estão disponíveis mediante solicitação.

English

Complex reasoning over tabular data is crucial in real-world data analysis, yet large language models (LLMs) often underperform due to complex queries, noisy data, and limited numerical capabilities. To address these issues, we propose \method, a framework consisting of: (1) a query decomposer that breaks down complex questions, (2) a table sanitizer that cleans and filters noisy tables, and (3) a program-of-thoughts (PoT)-based reasoner that generates executable code to derive the final answer from the sanitized table. To ensure unbiased evaluation and mitigate data leakage, we introduce a new dataset, CalTab151, specifically designed for complex numerical reasoning over tables. Experimental results demonstrate that \method consistently outperforms existing methods, achieving state-of-the-art (SOTA) performance with 8.79%, 6.08%, and 19.87% accuracy improvement on TAT-QA, TableBench, and \method, respectively. Moreover, our framework integrates seamlessly with mainstream LLMs, providing a robust solution for complex tabular numerical reasoning. These findings highlight the effectiveness of our framework in enhancing LLM performance for complex tabular numerical reasoning. Data and code are available upon request.