TabDSR : Décomposition, Assainissement et Raisonnement pour le Traitement de Raisonnement Numérique Complexe sur des Données Tabulaires
TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data
November 4, 2025
papers.authors: Changjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng
cs.AI
papers.abstract
Le raisonnement complexe sur des données tabulaires est crucial dans l'analyse de données réelles, mais les grands modèles de langage (LLM) sont souvent sous-performants en raison de requêtes complexes, de données bruitées et de capacités numériques limitées. Pour résoudre ces problèmes, nous proposons \method, un cadre comprenant : (1) un décomposeur de requêtes qui fragmente les questions complexes, (2) un assainisseur de tableaux qui nettoie et filtre les tables bruitées, et (3) un raisonneur basé sur les programmes de pensée (PoT) qui génère du code exécutable pour dériver la réponse finale à partir de la table assainie. Pour garantir une évaluation impartiale et atténuer les fuites de données, nous introduisons un nouveau jeu de données, CalTab151, spécifiquement conçu pour le raisonnement numérique complexe sur les tableaux. Les résultats expérimentaux démontrent que \method surpasse systématiquement les méthodes existantes, atteignant des performances de pointe (SOTA) avec une amélioration de la précision de 8,79 %, 6,08 % et 19,87 % respectivement sur TAT-QA, TableBench et \method. De plus, notre cadre s'intègre de manière transparente avec les LLM grand public, offrant une solution robuste pour le raisonnement numérique tabulaire complexe. Ces résultats soulignent l'efficacité de notre cadre pour améliorer les performances des LLM dans le raisonnement numérique tabulaire complexe. Les données et le code sont disponibles sur demande.
English
Complex reasoning over tabular data is crucial in real-world data analysis,
yet large language models (LLMs) often underperform due to complex queries,
noisy data, and limited numerical capabilities. To address these issues, we
propose \method, a framework consisting of: (1) a query decomposer that breaks
down complex questions, (2) a table sanitizer that cleans and filters noisy
tables, and (3) a program-of-thoughts (PoT)-based reasoner that generates
executable code to derive the final answer from the sanitized table. To ensure
unbiased evaluation and mitigate data leakage, we introduce a new dataset,
CalTab151, specifically designed for complex numerical reasoning over tables.
Experimental results demonstrate that \method consistently outperforms existing
methods, achieving state-of-the-art (SOTA) performance with 8.79%, 6.08%, and
19.87% accuracy improvement on TAT-QA, TableBench, and \method, respectively.
Moreover, our framework integrates seamlessly with mainstream LLMs, providing a
robust solution for complex tabular numerical reasoning. These findings
highlight the effectiveness of our framework in enhancing LLM performance for
complex tabular numerical reasoning. Data and code are available upon request.