TaTToo: Модель мышления, основанная на инструментах (PRM), для масштабирования табличных рассуждений в режиме тестирования
TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning
October 7, 2025
Авторы: Jiaru Zou, Soumya Roy, Vinay Kumar Verma, Ziyi Wang, David Wipf, Pan Lu, Sumit Negi, James Zou, Jingrui He
cs.AI
Аннотация
Модели вознаграждения за процесс (Process Reward Models, PRMs) недавно появились как мощный инструмент для улучшения способностей к рассуждению у крупных моделей рассуждений (Large Reasoning Models, LRMs), особенно в контексте масштабирования на этапе тестирования (Test-Time Scaling, TTS). Однако их потенциал для контроля LRMs в задачах табличного рассуждения остается недостаточно изученным. В ходе детального эмпирического анализа мы выявили, что существующие PRMs, хотя и широко применяются для контроля текстовых шагов рассуждения, испытывают трудности с операциями, специфичными для таблиц, такими как извлечение подтаблиц и взаимодействие со схемами, что приводит к серьезным ограничениям в производительности. Чтобы устранить этот недостаток, мы предлагаем TaTToo — новую PRM-модель, основанную на таблицах, которая (i) явно рассуждает на основе шагов табличного рассуждения и (ii) интегрирует инструментальную проверку для обеспечения точного контроля вознаграждения. Конкретно, мы сначала разрабатываем масштабируемый конвейер подготовки данных, который создает более 60 тысяч высококачественных аннотаций на уровне шагов, объединяя обоснования проверки таблиц с инструментальным выполнением. На основе собранных данных мы обучаем TaTToo с использованием двухэтапной парадигмы: начальное тонкое обучение с учителем для улавливания паттернов рассуждения с использованием инструментов, за которым следует обучение с подкреплением с формированием вознаграждения на основе инструментов для согласования модели с табличной проверкой. Мы проводим всестороннюю оценку улучшений политики, вызванных нашей новой PRM. На пяти сложных тестах табличного рассуждения, охватывающих численные рассуждения, проверку фактов и анализ данных, TaTToo улучшает производительность LRMs на 30,9% на этапе вывода, превосходит сильные базовые PRM, такие как Qwen-2.5-Math-PRM-72B, имея всего 8 миллиардов параметров, и демонстрирует высокую обобщаемость для различных стратегий TTS.
English
Process Reward Models (PRMs) have recently emerged as a powerful framework
for enhancing the reasoning capabilities of large reasoning models (LRMs),
particularly in the context of test-time scaling (TTS). However, their
potential for supervising LRMs on tabular reasoning domains remains
underexplored. Through detailed empirical analyses, we identify that existing
PRMs, though widely adopted for supervising text-only reasoning steps, struggle
with table-specific operations such as sub-table retrieval and schema
interaction, leading to critical performance bottlenecks. To address this
limitation, we propose TaTToo, a novel table-grounded PRM framework that (i)
reasons explicitly over tabular reasoning steps and (ii) integrates tool-based
verification to provide precise reward supervision. Concretely, we first design
a scalable data curation pipeline that constructs over 60k high-quality
step-level annotations by integrating table verification rationales with
tool-based executions. Building on the collected data, we train TaTToo with a
dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use
reasoning patterns, followed by reinforcement learning with tool-grounded
reward shaping to align our model with table-based verification. We provide a
comprehensive evaluation of the policy improvement induced by our newly
designed PRM. Across 5 challenging tabular reasoning benchmarks covering
numerical reasoning, fact-checking, and data analysis, TaTToo improves
downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines
such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong
generalizability across diverse TTS strategies.