ChatPaper.aiChatPaper

TabDSR: 表データにおける複雑な数値推論のための分解、洗浄、推論

TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data

November 4, 2025
著者: Changjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng
cs.AI

要旨

表データに対する複合推論は実世界のデータ分析において重要であるが、大規模言語モデル(LLM)は複雑なクエリ、ノイズの多いデータ、限定的な数値処理能力により、しばしば十分な性能を発揮できない。これらの課題に対処するため、我々は以下の要素から構成されるフレームワーク「\method」を提案する:(1)複雑な質問を分解するクエリ分解器、(2)ノイズの多いテーブルを洗浄・フィルタリングするテーブル清浄化器、(3)清浄化されたテーブルから最終回答を導出する実行可能コードを生成するプログラム思考(PoT)ベースの推論器。データ漏洩を防ぎ公平な評価を確保するため、表に対する複雑な数値推論に特化した新しいデータセットCalTab151を導入した。実験結果は、\method が既存手法を一貫して上回り、TAT-QA、TableBench、\method においてそれぞれ8.79%、6.08%、19.87%の精度向上で最先端(SOTA)の性能を達成することを示している。さらに、本フレームワークは主流のLLMとシームレスに統合され、複雑な表データの数値推論に対する堅牢なソリューションを提供する。これらの知見は、複雑な表データの数値推論におけるLLM性能向上への本フレームワークの有効性を裏付けるものである。データ及びコードは要請に応じて提供可能である。
English
Complex reasoning over tabular data is crucial in real-world data analysis, yet large language models (LLMs) often underperform due to complex queries, noisy data, and limited numerical capabilities. To address these issues, we propose \method, a framework consisting of: (1) a query decomposer that breaks down complex questions, (2) a table sanitizer that cleans and filters noisy tables, and (3) a program-of-thoughts (PoT)-based reasoner that generates executable code to derive the final answer from the sanitized table. To ensure unbiased evaluation and mitigate data leakage, we introduce a new dataset, CalTab151, specifically designed for complex numerical reasoning over tables. Experimental results demonstrate that \method consistently outperforms existing methods, achieving state-of-the-art (SOTA) performance with 8.79%, 6.08%, and 19.87% accuracy improvement on TAT-QA, TableBench, and \method, respectively. Moreover, our framework integrates seamlessly with mainstream LLMs, providing a robust solution for complex tabular numerical reasoning. These findings highlight the effectiveness of our framework in enhancing LLM performance for complex tabular numerical reasoning. Data and code are available upon request.
PDF11December 2, 2025