ChatPaper.aiChatPaper

Tabella-R1: Scalabilità al Momento dell'Inferenza per il Ragionamento su Tabelle

Table-R1: Inference-Time Scaling for Table Reasoning

May 29, 2025
Autori: Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao
cs.AI

Abstract

In questo lavoro, presentiamo il primo studio che esplora il ridimensionamento al momento dell'inferenza nei compiti di ragionamento su tabelle. Sviluppiamo e valutiamo due strategie post-addestramento per abilitare il ridimensionamento durante l'inferenza: la distillazione dalle tracce di ragionamento di modelli all'avanguardia e l'apprendimento per rinforzo con ricompense verificabili (RLVR). Per la distillazione, introduciamo un dataset su larga scala di tracce di ragionamento generate da DeepSeek-R1, che utilizziamo per affinare i LLM nel modello Table-R1-SFT. Per RLVR, proponiamo funzioni di ricompensa verificabili specifiche per il compito e applichiamo l'algoritmo GRPO per ottenere il modello Table-R1-Zero. Valutiamo i nostri modelli della serie Table-R1 su una varietà di compiti di ragionamento su tabelle, tra cui QA a risposta breve, verifica di fatti e QA a risposta libera. È degno di nota che il modello Table-R1-Zero eguaglia o supera le prestazioni di GPT-4.1 e DeepSeek-R1, pur utilizzando un LLM con solo 7 miliardi di parametri. Dimostra inoltre una forte generalizzazione su dataset fuori dominio. Ampie analisi di ablazione e qualitative rivelano i vantaggi della messa a punto delle istruzioni, delle scelte architetturali del modello e della generalizzazione cross-task, nonché l'emergere di abilità essenziali di ragionamento su tabelle durante l'addestramento RL.
English
In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.
PDF942May 30, 2025