ChatPaper.aiChatPaper

TaTToo: Modelo de Raciocínio Baseado em Ferramentas PRM para Escalonamento em Tempo de Teste em Raciocínio Tabular

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

October 7, 2025
Autores: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He
cs.AI

Resumo

Os Modelos de Recompensa de Processo (PRMs) surgiram recentemente como uma estrutura poderosa para aprimorar as capacidades de raciocínio de grandes modelos de raciocínio (LRMs), especialmente no contexto de escalonamento em tempo de teste (TTS). No entanto, seu potencial para supervisionar LRMs em domínios de raciocínio tabular permanece subexplorado. Através de análises empíricas detalhadas, identificamos que os PRMs existentes, embora amplamente adotados para supervisionar etapas de raciocínio baseadas apenas em texto, enfrentam dificuldades com operações específicas de tabelas, como recuperação de sub-tabelas e interação com esquemas, levando a gargalos críticos de desempenho. Para abordar essa limitação, propomos o TaTToo, uma nova estrutura PRM baseada em tabelas que (i) raciocina explicitamente sobre etapas de raciocínio tabular e (ii) integra verificação baseada em ferramentas para fornecer supervisão de recompensa precisa. Concretamente, primeiro projetamos um pipeline escalável de curadoria de dados que constrói mais de 60 mil anotações de alta qualidade em nível de etapa, integrando racionais de verificação de tabelas com execuções baseadas em ferramentas. Com base nos dados coletados, treinamos o TaTToo com um paradigma de duas etapas: ajuste fino supervisionado de partida a frio para capturar padrões de raciocínio com uso de ferramentas, seguido por aprendizado por reforço com modelagem de recompensa baseada em ferramentas para alinhar nosso modelo com a verificação baseada em tabelas. Fornecemos uma avaliação abrangente da melhoria de política induzida pelo nosso PRM recém-projetado. Em 5 benchmarks desafiadores de raciocínio tabular, cobrindo raciocínio numérico, verificação de fatos e análise de dados, o TaTToo melhora os LRMs de política downstream em 30,9% na inferência, supera fortes baselines de PRM, como o Qwen-2.5-Math-PRM-72B, com apenas 8 bilhões de parâmetros, e demonstra forte generalização em diversas estratégias de TTS.
English
Process Reward Models (PRMs) have recently emerged as a powerful framework for enhancing the reasoning capabilities of large reasoning models (LRMs), particularly in the context of test-time scaling (TTS). However, their potential for supervising LRMs on tabular reasoning domains remains underexplored. Through detailed empirical analyses, we identify that existing PRMs, though widely adopted for supervising text-only reasoning steps, struggle with table-specific operations such as sub-table retrieval and schema interaction, leading to critical performance bottlenecks. To address this limitation, we propose TaTToo, a novel table-grounded PRM framework that (i) reasons explicitly over tabular reasoning steps and (ii) integrates tool-based verification to provide precise reward supervision. Concretely, we first design a scalable data curation pipeline that constructs over 60k high-quality step-level annotations by integrating table verification rationales with tool-based executions. Building on the collected data, we train TaTToo with a dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use reasoning patterns, followed by reinforcement learning with tool-grounded reward shaping to align our model with table-based verification. We provide a comprehensive evaluation of the policy improvement induced by our newly designed PRM. Across 5 challenging tabular reasoning benchmarks covering numerical reasoning, fact-checking, and data analysis, TaTToo improves downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong generalizability across diverse TTS strategies.
PDF613October 8, 2025