TaTToo: Tool-Gebaseerd Denkend PRM voor Test-Tijd Schaling in Tabelvormig Redeneren
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
October 7, 2025
Auteurs: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He
cs.AI
Samenvatting
Process Reward Models (PRMs) zijn recent naar voren gekomen als een krachtig raamwerk voor het verbeteren van de redeneervaardigheden van grote redeneermodellen (LRMs), met name in de context van test-time scaling (TTS). Hun potentieel voor het begeleiden van LRMs in tabelgebaseerde redeneerdomeinen blijft echter onderbelicht. Door gedetailleerde empirische analyses hebben we vastgesteld dat bestaande PRMs, hoewel veel gebruikt voor het begeleiden van tekstuele redeneerstappen, moeite hebben met tabel-specifieke operaties zoals het ophalen van subtabellen en schema-interactie, wat leidt tot kritieke prestatieknelpunten. Om deze beperking aan te pakken, stellen we TaTToo voor, een nieuw tabelgebaseerd PRM-raamwerk dat (i) expliciet redeneert over tabelgebaseerde redeneerstappen en (ii) toolgebaseerde verificatie integreert om precieze beloningsbegeleiding te bieden. Concreet ontwerpen we eerst een schaalbare datacuratiepijplijn die meer dan 60k hoogwaardige stapgewijze annotaties construeert door tabelverificatierationales te integreren met toolgebaseerde uitvoeringen. Op basis van de verzamelde data trainen we TaTToo met een tweefasenparadigma: cold-start supervised fine-tuning om toolgebruik-redeneerpatronen vast te leggen, gevolgd door reinforcement learning met toolgebaseerde beloningsvorming om ons model af te stemmen op tabelgebaseerde verificatie. We bieden een uitgebreide evaluatie van de beleidsverbetering die wordt geïnduceerd door onze nieuw ontworpen PRM. Over 5 uitdagende tabelgebaseerde redeneerbenchmarks die numeriek redeneren, feitencontrole en data-analyse omvatten, verbetert TaTToo downstream beleids-LRMs met 30,9% tijdens inferentie, overtreft het sterke PRM-baselines zoals Qwen-2.5-Math-PRM-72B met slechts 8B parameters, en toont het sterke generaliseerbaarheid over diverse TTS-strategieën.
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for enhancing the reasoning capabilities of large reasoning models (LRMs),
particularly in the context of test-time scaling (TTS). However, their
potential for supervising LRMs on tabular reasoning domains remains
underexplored. Through detailed empirical analyses, we identify that existing
PRMs, though widely adopted for supervising text-only reasoning steps, struggle
with table-specific operations such as sub-table retrieval and schema
interaction, leading to critical performance bottlenecks. To address this
limitation, we propose TaTToo, a novel table-grounded PRM framework that (i)
reasons explicitly over tabular reasoning steps and (ii) integrates tool-based
verification to provide precise reward supervision. Concretely, we first design
a scalable data curation pipeline that constructs over 60k high-quality
step-level annotations by integrating table verification rationales with
tool-based executions. Building on the collected data, we train TaTToo with a
dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use
reasoning patterns, followed by reinforcement learning with tool-grounded
reward shaping to align our model with table-based verification. We provide a
comprehensive evaluation of the policy improvement induced by our newly
designed PRM. Across 5 challenging tabular reasoning benchmarks covering
numerical reasoning, fact-checking, and data analysis, TaTToo improves
downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines
such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong
generalizability across diverse TTS strategies.