TaTToo: Pensamiento Basado en Herramientas PRM para Escalado en Tiempo de Prueba en Razonamiento Tabular

Resumen

Los Modelos de Recompensa de Procesos (PRMs, por sus siglas en inglés) han surgido recientemente como un marco poderoso para mejorar las capacidades de razonamiento de los modelos de razonamiento a gran escala (LRMs), particularmente en el contexto del escalado en tiempo de prueba (TTS). Sin embargo, su potencial para supervisar LRMs en dominios de razonamiento tabular sigue siendo poco explorado. A través de análisis empíricos detallados, identificamos que los PRMs existentes, aunque ampliamente adoptados para supervisar pasos de razonamiento basados únicamente en texto, tienen dificultades con operaciones específicas de tablas, como la recuperación de sub-tablas y la interacción con esquemas, lo que conduce a cuellos de botella críticos en el rendimiento. Para abordar esta limitación, proponemos TaTToo, un novedoso marco PRM basado en tablas que (i) razona explícitamente sobre pasos de razonamiento tabular y (ii) integra verificación basada en herramientas para proporcionar una supervisión de recompensa precisa. Concretamente, primero diseñamos una canalización escalable de curación de datos que construye más de 60k anotaciones de alta calidad a nivel de paso, integrando racionales de verificación de tablas con ejecuciones basadas en herramientas. Sobre la base de los datos recopilados, entrenamos TaTToo con un paradigma de dos etapas: ajuste fino supervisado de arranque en frío para capturar patrones de razonamiento con uso de herramientas, seguido de aprendizaje por refuerzo con modelado de recompensa basado en herramientas para alinear nuestro modelo con la verificación basada en tablas. Proporcionamos una evaluación exhaustiva de la mejora de la política inducida por nuestro PRM recién diseñado. En 5 desafiantes puntos de referencia de razonamiento tabular que cubren razonamiento numérico, verificación de hechos y análisis de datos, TaTToo mejora los LRMs de política descendente en un 30.9% en la inferencia, supera a fuertes líneas base de PRM como Qwen-2.5-Math-PRM-72B con solo 8B parámetros y demuestra una fuerte generalización en diversas estrategias de TTS.

English

Process Reward Models (PRMs) have recently emerged as a powerful framework for enhancing the reasoning capabilities of large reasoning models (LRMs), particularly in the context of test-time scaling (TTS). However, their potential for supervising LRMs on tabular reasoning domains remains underexplored. Through detailed empirical analyses, we identify that existing PRMs, though widely adopted for supervising text-only reasoning steps, struggle with table-specific operations such as sub-table retrieval and schema interaction, leading to critical performance bottlenecks. To address this limitation, we propose TaTToo, a novel table-grounded PRM framework that (i) reasons explicitly over tabular reasoning steps and (ii) integrates tool-based verification to provide precise reward supervision. Concretely, we first design a scalable data curation pipeline that constructs over 60k high-quality step-level annotations by integrating table verification rationales with tool-based executions. Building on the collected data, we train TaTToo with a dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use reasoning patterns, followed by reinforcement learning with tool-grounded reward shaping to align our model with table-based verification. We provide a comprehensive evaluation of the policy improvement induced by our newly designed PRM. Across 5 challenging tabular reasoning benchmarks covering numerical reasoning, fact-checking, and data analysis, TaTToo improves downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong generalizability across diverse TTS strategies.

TaTToo: Pensamiento Basado en Herramientas PRM para Escalado en Tiempo de Prueba en Razonamiento Tabular

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

Resumen

Support