TabDSR: 표 형식 데이터에서 복잡한 수치 추론을 위한 분해, 정제 및 추론
TabDSR: Decompose, Sanitize, and Reason for Complex Numerical Reasoning in Tabular Data
November 4, 2025
저자: Changjiang Jiang, Fengchang Yu, Haihua Chen, Wei Lu, Jin Zeng
cs.AI
초록
표 형식 데이터에 대한 복잡한 추론은 실제 데이터 분석에서 매우 중요하지만, 대규모 언어 모델(LLM)은 복잡한 질의, 노이즈가 있는 데이터, 제한된 수치 처리 능력으로 인해 종종 낮은 성능을 보입니다. 이러한 문제를 해결하기 위해 우리는 다음과 같은 구성 요소로 이루어진 \method 프레임워크를 제안합니다: (1) 복잡한 질문을 분해하는 질의 분해기, (2) 노이즈가 있는 테이블을 정리하고 필터링하는 테이블 정제기, (3) 정제된 테이블에서 최종 답변을 도출하기 위해 실행 가능한 코드를 생성하는 프로그램 사고(PoT) 기반 추론기. 편향되지 않은 평가와 데이터 누출을 방지하기 위해 표에 대한 복잡한 수치 추론을 위해 특별히 설계된 새로운 데이터 세트인 CalTab151을 도입했습니다. 실험 결과, \method는 기존 방법들을 지속적으로 능가하며 TAT-QA, TableBench 및 \method에서 각각 8.79%, 6.08%, 19.87%의 정확도 향상을 달성하여 최첨단(SOTA) 성능을 달성했습니다. 또한 우리의 프레임워크는 주류 LLM과 원활하게 통합되어 복잡한 표 형식 수치 추론을 위한 강력한 솔루션을 제공합니다. 이러한 결과는 복잡한 표 형식 수치 추론을 위한 LLM 성능 향상에서 우리 프레임워크의 효과성을 입증합니다. 데이터와 코드는 요청 시 제공 가능합니다.
English
Complex reasoning over tabular data is crucial in real-world data analysis,
yet large language models (LLMs) often underperform due to complex queries,
noisy data, and limited numerical capabilities. To address these issues, we
propose \method, a framework consisting of: (1) a query decomposer that breaks
down complex questions, (2) a table sanitizer that cleans and filters noisy
tables, and (3) a program-of-thoughts (PoT)-based reasoner that generates
executable code to derive the final answer from the sanitized table. To ensure
unbiased evaluation and mitigate data leakage, we introduce a new dataset,
CalTab151, specifically designed for complex numerical reasoning over tables.
Experimental results demonstrate that \method consistently outperforms existing
methods, achieving state-of-the-art (SOTA) performance with 8.79%, 6.08%, and
19.87% accuracy improvement on TAT-QA, TableBench, and \method, respectively.
Moreover, our framework integrates seamlessly with mainstream LLMs, providing a
robust solution for complex tabular numerical reasoning. These findings
highlight the effectiveness of our framework in enhancing LLM performance for
complex tabular numerical reasoning. Data and code are available upon request.