TaTToo : Modèle de Raisonnement basé sur les Outils (PRM) pour la Mise à l'Échelle en Temps de Test dans le Raisonnement Tabulaire
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
October 7, 2025
papers.authors: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He
cs.AI
papers.abstract
Les modèles de récompense de processus (PRM) ont récemment émergé comme un cadre puissant pour améliorer les capacités de raisonnement des grands modèles de raisonnement (LRM), en particulier dans le contexte de la mise à l'échelle au moment du test (TTS). Cependant, leur potentiel pour superviser les LRM dans les domaines de raisonnement tabulaire reste sous-exploré. À travers des analyses empiriques détaillées, nous identifions que les PRM existants, bien que largement adoptés pour superviser les étapes de raisonnement basées uniquement sur le texte, peinent à gérer les opérations spécifiques aux tableaux, telles que la récupération de sous-tableaux et l'interaction avec les schémas, ce qui entraîne des goulots d'étranglement critiques en termes de performance. Pour remédier à cette limitation, nous proposons TaTToo, un nouveau cadre PRM ancré dans les tableaux qui (i) raisonne explicitement sur les étapes de raisonnement tabulaire et (ii) intègre une vérification basée sur des outils pour fournir une supervision précise des récompenses. Concrètement, nous concevons d'abord un pipeline évolutif de curation de données qui construit plus de 60 000 annotations de haute qualité au niveau des étapes en intégrant des justifications de vérification de tableaux avec des exécutions basées sur des outils. En nous appuyant sur les données collectées, nous entraînons TaTToo avec un paradigme en deux étapes : un réglage fin supervisé à froid pour capturer les schémas de raisonnement basés sur les outils, suivi d'un apprentissage par renforcement avec un modelage de récompense ancré dans les outils pour aligner notre modèle avec la vérification basée sur les tableaux. Nous fournissons une évaluation complète de l'amélioration de la politique induite par notre nouveau PRM. Sur 5 benchmarks exigeants de raisonnement tabulaire couvrant le raisonnement numérique, la vérification des faits et l'analyse de données, TaTToo améliore les LRM politiques en aval de 30,9 % à l'inférence, surpasse des PRM de référence solides tels que Qwen-2.5-Math-PRM-72B avec seulement 8 milliards de paramètres, et démontre une forte généralisabilité à travers diverses stratégies de TTS.
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for enhancing the reasoning capabilities of large reasoning models (LRMs),
particularly in the context of test-time scaling (TTS). However, their
potential for supervising LRMs on tabular reasoning domains remains
underexplored. Through detailed empirical analyses, we identify that existing
PRMs, though widely adopted for supervising text-only reasoning steps, struggle
with table-specific operations such as sub-table retrieval and schema
interaction, leading to critical performance bottlenecks. To address this
limitation, we propose TaTToo, a novel table-grounded PRM framework that (i)
reasons explicitly over tabular reasoning steps and (ii) integrates tool-based
verification to provide precise reward supervision. Concretely, we first design
a scalable data curation pipeline that constructs over 60k high-quality
step-level annotations by integrating table verification rationales with
tool-based executions. Building on the collected data, we train TaTToo with a
dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use
reasoning patterns, followed by reinforcement learning with tool-grounded
reward shaping to align our model with table-based verification. We provide a
comprehensive evaluation of the policy improvement induced by our newly
designed PRM. Across 5 challenging tabular reasoning benchmarks covering
numerical reasoning, fact-checking, and data analysis, TaTToo improves
downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines
such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong
generalizability across diverse TTS strategies.