TaTToo: Pensamiento Basado en Herramientas PRM para Escalado en Tiempo de Prueba en Razonamiento Tabular
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
October 7, 2025
Autores: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He
cs.AI
Resumen
Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) han surgido recientemente como un marco poderoso para mejorar las capacidades de razonamiento de los modelos de razonamiento a gran escala (LRMs), particularmente en el contexto del escalado en tiempo de prueba (TTS). Sin embargo, su potencial para supervisar LRMs en dominios de razonamiento tabular sigue siendo poco explorado. A través de análisis empíricos detallados, identificamos que los PRMs existentes, aunque ampliamente adoptados para supervisar pasos de razonamiento basados únicamente en texto, tienen dificultades con operaciones específicas de tablas, como la recuperación de sub-tablas y la interacción con esquemas, lo que conduce a cuellos de botella críticos en el rendimiento. Para abordar esta limitación, proponemos TaTToo, un novedoso marco PRM basado en tablas que (i) razona explícitamente sobre pasos de razonamiento tabular y (ii) integra verificación basada en herramientas para proporcionar una supervisión de recompensa precisa. Concretamente, primero diseñamos una canalización escalable de curación de datos que construye más de 60k anotaciones de alta calidad a nivel de paso, integrando racionales de verificación de tablas con ejecuciones basadas en herramientas. Sobre la base de los datos recopilados, entrenamos TaTToo con un paradigma de dos etapas: ajuste fino supervisado de arranque en frío para capturar patrones de razonamiento con uso de herramientas, seguido de aprendizaje por refuerzo con modelado de recompensa basado en herramientas para alinear nuestro modelo con la verificación basada en tablas. Proporcionamos una evaluación exhaustiva de la mejora de la política inducida por nuestro PRM recién diseñado. En 5 desafiantes puntos de referencia de razonamiento tabular que cubren razonamiento numérico, verificación de hechos y análisis de datos, TaTToo mejora los LRMs de política descendente en un 30.9% en la inferencia, supera a fuertes líneas base de PRM como Qwen-2.5-Math-PRM-72B con solo 8B parámetros y demuestra una fuerte generalización en diversas estrategias de TTS.
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for enhancing the reasoning capabilities of large reasoning models (LRMs),
particularly in the context of test-time scaling (TTS). However, their
potential for supervising LRMs on tabular reasoning domains remains
underexplored. Through detailed empirical analyses, we identify that existing
PRMs, though widely adopted for supervising text-only reasoning steps, struggle
with table-specific operations such as sub-table retrieval and schema
interaction, leading to critical performance bottlenecks. To address this
limitation, we propose TaTToo, a novel table-grounded PRM framework that (i)
reasons explicitly over tabular reasoning steps and (ii) integrates tool-based
verification to provide precise reward supervision. Concretely, we first design
a scalable data curation pipeline that constructs over 60k high-quality
step-level annotations by integrating table verification rationales with
tool-based executions. Building on the collected data, we train TaTToo with a
dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use
reasoning patterns, followed by reinforcement learning with tool-grounded
reward shaping to align our model with table-based verification. We provide a
comprehensive evaluation of the policy improvement induced by our newly
designed PRM. Across 5 challenging tabular reasoning benchmarks covering
numerical reasoning, fact-checking, and data analysis, TaTToo improves
downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines
such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong
generalizability across diverse TTS strategies.