TaTToo: Werkzeugbasiertes Denken PRM für Testzeit-Skalierung in der tabellarischen Argumentation
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
October 7, 2025
papers.authors: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He
cs.AI
papers.abstract
Process Reward Models (PRMs) haben sich kürzlich als ein leistungsstarkes Framework zur Verbesserung der Fähigkeiten großer Reasoning-Modelle (LRMs) erwiesen, insbesondere im Kontext von Test-Time Scaling (TTS). Ihr Potenzial zur Überwachung von LRMs in tabellarischen Reasoning-Domänen bleibt jedoch weitgehend unerforscht. Durch detaillierte empirische Analysen stellen wir fest, dass bestehende PRMs, obwohl sie weit verbreitet zur Überwachung von textbasierten Reasoning-Schritten eingesetzt werden, Schwierigkeiten mit tabellenspezifischen Operationen wie der Sub-Tabellen-Retrieval und Schema-Interaktion haben, was zu kritischen Leistungsengpässen führt. Um diese Einschränkung zu überwinden, schlagen wir TaTToo vor, ein neuartiges, tabellengestütztes PRM-Framework, das (i) explizit über tabellarische Reasoning-Schritte nachdenkt und (ii) werkzeugbasierte Verifikation integriert, um präzise Belohnungsüberwachung zu ermöglichen. Konkret entwerfen wir zunächst eine skalierbare Datenkuratierungspipeline, die über 60.000 hochwertige Schritt-für-Schritt-Annotationen erstellt, indem sie Tabellenverifikationsrationale mit werkzeugbasierten Ausführungen kombiniert. Aufbauend auf den gesammelten Daten trainieren wir TaTToo mit einem zweistufigen Paradigma: kaltstartüberwachtes Feinabstimmen, um werkzeugbasierte Reasoning-Muster zu erfassen, gefolgt von verstärkendem Lernen mit werkzeuggestützter Belohnungsformung, um unser Modell mit tabellenbasierter Verifikation abzustimmen. Wir bieten eine umfassende Bewertung der durch unser neu entwickeltes PRM induzierten Politikverbesserung. Über fünf anspruchsvolle tabellarische Reasoning-Benchmarks, die numerisches Reasoning, Faktenprüfung und Datenanalyse abdecken, verbessert TaTToo die nachgelagerten Policy-LRMs um 30,9 % bei der Inferenz, übertrifft starke PRM-Baselines wie Qwen-2.5-Math-PRM-72B mit nur 8B Parametern und zeigt eine starke Generalisierbarkeit über diverse TTS-Strategien hinweg.
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for enhancing the reasoning capabilities of large reasoning models (LRMs),
particularly in the context of test-time scaling (TTS). However, their
potential for supervising LRMs on tabular reasoning domains remains
underexplored. Through detailed empirical analyses, we identify that existing
PRMs, though widely adopted for supervising text-only reasoning steps, struggle
with table-specific operations such as sub-table retrieval and schema
interaction, leading to critical performance bottlenecks. To address this
limitation, we propose TaTToo, a novel table-grounded PRM framework that (i)
reasons explicitly over tabular reasoning steps and (ii) integrates tool-based
verification to provide precise reward supervision. Concretely, we first design
a scalable data curation pipeline that constructs over 60k high-quality
step-level annotations by integrating table verification rationales with
tool-based executions. Building on the collected data, we train TaTToo with a
dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use
reasoning patterns, followed by reinforcement learning with tool-grounded
reward shaping to align our model with table-based verification. We provide a
comprehensive evaluation of the policy improvement induced by our newly
designed PRM. Across 5 challenging tabular reasoning benchmarks covering
numerical reasoning, fact-checking, and data analysis, TaTToo improves
downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines
such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong
generalizability across diverse TTS strategies.