TaTToo: Модель мышления, основанная на инструментах (PRM), для масштабирования табличных рассуждений в режиме тестирования

Аннотация

Модели вознаграждения за процесс (Process Reward Models, PRMs) недавно появились как мощный инструмент для улучшения способностей к рассуждению у крупных моделей рассуждений (Large Reasoning Models, LRMs), особенно в контексте масштабирования на этапе тестирования (Test-Time Scaling, TTS). Однако их потенциал для контроля LRMs в задачах табличного рассуждения остается недостаточно изученным. В ходе детального эмпирического анализа мы выявили, что существующие PRMs, хотя и широко применяются для контроля текстовых шагов рассуждения, испытывают трудности с операциями, специфичными для таблиц, такими как извлечение подтаблиц и взаимодействие со схемами, что приводит к серьезным ограничениям в производительности. Чтобы устранить этот недостаток, мы предлагаем TaTToo — новую PRM-модель, основанную на таблицах, которая (i) явно рассуждает на основе шагов табличного рассуждения и (ii) интегрирует инструментальную проверку для обеспечения точного контроля вознаграждения. Конкретно, мы сначала разрабатываем масштабируемый конвейер подготовки данных, который создает более 60 тысяч высококачественных аннотаций на уровне шагов, объединяя обоснования проверки таблиц с инструментальным выполнением. На основе собранных данных мы обучаем TaTToo с использованием двухэтапной парадигмы: начальное тонкое обучение с учителем для улавливания паттернов рассуждения с использованием инструментов, за которым следует обучение с подкреплением с формированием вознаграждения на основе инструментов для согласования модели с табличной проверкой. Мы проводим всестороннюю оценку улучшений политики, вызванных нашей новой PRM. На пяти сложных тестах табличного рассуждения, охватывающих численные рассуждения, проверку фактов и анализ данных, TaTToo улучшает производительность LRMs на 30,9% на этапе вывода, превосходит сильные базовые PRM, такие как Qwen-2.5-Math-PRM-72B, имея всего 8 миллиардов параметров, и демонстрирует высокую обобщаемость для различных стратегий TTS.

English

Process Reward Models (PRMs) have recently emerged as a powerful framework for enhancing the reasoning capabilities of large reasoning models (LRMs), particularly in the context of test-time scaling (TTS). However, their potential for supervising LRMs on tabular reasoning domains remains underexplored. Through detailed empirical analyses, we identify that existing PRMs, though widely adopted for supervising text-only reasoning steps, struggle with table-specific operations such as sub-table retrieval and schema interaction, leading to critical performance bottlenecks. To address this limitation, we propose TaTToo, a novel table-grounded PRM framework that (i) reasons explicitly over tabular reasoning steps and (ii) integrates tool-based verification to provide precise reward supervision. Concretely, we first design a scalable data curation pipeline that constructs over 60k high-quality step-level annotations by integrating table verification rationales with tool-based executions. Building on the collected data, we train TaTToo with a dual-stage paradigm: cold-start supervised fine-tuning to capture tool-use reasoning patterns, followed by reinforcement learning with tool-grounded reward shaping to align our model with table-based verification. We provide a comprehensive evaluation of the policy improvement induced by our newly designed PRM. Across 5 challenging tabular reasoning benchmarks covering numerical reasoning, fact-checking, and data analysis, TaTToo improves downstream policy LRMs by 30.9% at inference, surpasses strong PRM baselines such as Qwen-2.5-Math-PRM-72B with only 8B parameters, and demonstrates strong generalizability across diverse TTS strategies.

TaTToo: Модель мышления, основанная на инструментах (PRM), для масштабирования табличных рассуждений в режиме тестирования

TaTToo: Tool-Grounded Thinking PRM for Test-Time Scaling in Tabular Reasoning

Аннотация

Support