TaTToo: Modello di Ragionamento Basato su Strumenti (PRM) per il Ridimensionamento al Momento del Test nel Ragionamento su Dati Tabellari
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
October 7, 2025
Autori: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He
cs.AI
Abstract
I Modelli di Ricompensa per Processi (PRM) sono emersi recentemente come un potente framework per migliorare le capacità di ragionamento dei grandi modelli di ragionamento (LRM), in particolare nel contesto dello scaling al momento del test (TTS). Tuttavia, il loro potenziale per supervisionare gli LRM nei domini di ragionamento tabellare rimane poco esplorato. Attraverso analisi empiriche dettagliate, abbiamo identificato che i PRM esistenti, sebbene ampiamente adottati per supervisionare passaggi di ragionamento basati esclusivamente su testo, faticano a gestire operazioni specifiche per le tabelle, come il recupero di sotto-tabelle e l'interazione con lo schema, portando a colli di bottiglia critici nelle prestazioni. Per affrontare questa limitazione, proponiamo TaTToo, un nuovo framework PRM basato su tabelle che (i) ragiona esplicitamente sui passaggi di ragionamento tabellare e (ii) integra la verifica basata su strumenti per fornire una supervisione precisa delle ricompense. Nello specifico, progettiamo prima una pipeline scalabile per la curatela dei dati che costruisce oltre 60k annotazioni di alta qualità a livello di passaggio, integrando le razionalità di verifica delle tabelle con esecuzioni basate su strumenti. Basandoci sui dati raccolti, addestriamo TaTToo con un paradigma a due stadi: fine-tuning supervisionato in fase di cold-start per catturare i modelli di ragionamento basati su strumenti, seguito da apprendimento per rinforzo con modellazione delle ricompense basata su strumenti per allineare il nostro modello con la verifica basata su tabelle. Forniamo una valutazione completa del miglioramento della politica indotto dal nostro nuovo PRM progettato. Su 5 benchmark impegnativi di ragionamento tabellare che coprono ragionamento numerico, fact-checking e analisi dei dati, TaTToo migliora gli LRM politici downstream del 30.9% al momento dell'inferenza, supera forti baseline PRM come Qwen-2.5-Math-PRM-72B con soli 8B parametri e dimostra una forte generalizzabilità attraverso diverse strategie TTS.
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for enhancing the reasoning capabilities of large reasoning models (LRMs),
particularly in the context of test-time scaling (TTS). However, their
potential for supervising LRMs on tabular reasoning domains remains
underexplored. Through detailed empirical analyses, we identify that existing
PRMs, though widely adopted for supervising text-only reasoning steps, struggle
with table-specific operations such as sub-table retrieval and schema
interaction, leading to critical performance bottlenecks. To address this
limitation, we propose TaTToo, a novel table-grounded PRM framework that (i)
reasons explicitly over tabular reasoning steps and (ii) integrates tool-based
verification to provide precise reward supervision. Concretely, we first design
a scalable data curation pipeline that constructs over 60k high-quality
step-level annotations by integrating table verification rationales with
tool-based executions. Building on the collected data, we train TaTToo with a
dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use
reasoning patterns, followed by reinforcement learning with tool-grounded
reward shaping to align our model with table-based verification. We provide a
comprehensive evaluation of the policy improvement induced by our newly
designed PRM. Across 5 challenging tabular reasoning benchmarks covering
numerical reasoning, fact-checking, and data analysis, TaTToo improves
downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines
such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong
generalizability across diverse TTS strategies.