ChatPaper.aiChatPaper

Tableau-R1 : Mise à l'échelle au moment de l'inférence pour le raisonnement sur les tableaux

Table-R1: Inference-Time Scaling for Table Reasoning

May 29, 2025
Auteurs: Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao
cs.AI

Résumé

Dans ce travail, nous présentons la première étude explorant la mise à l'échelle au moment de l'inférence pour les tâches de raisonnement sur tableaux. Nous développons et évaluons deux stratégies post-entraînement pour permettre cette mise à l'échelle : la distillation à partir de traces de raisonnement de modèles de pointe et l'apprentissage par renforcement avec récompenses vérifiables (RLVR). Pour la distillation, nous introduisons un jeu de données à grande échelle de traces de raisonnement générées par DeepSeek-R1, que nous utilisons pour affiner des LLMs dans le modèle Table-R1-SFT. Pour RLVR, nous proposons des fonctions de récompense vérifiables spécifiques aux tâches et appliquons l'algorithme GRPO pour obtenir le modèle Table-R1-Zero. Nous évaluons nos modèles de la série Table-R1 sur diverses tâches de raisonnement sur tableaux, incluant les questions-réponses courtes, la vérification de faits et les questions-réponses libres. Notamment, le modèle Table-R1-Zero égalise ou dépasse les performances de GPT-4.1 et DeepSeek-R1, tout en utilisant uniquement un LLM à 7 milliards de paramètres. Il démontre également une forte généralisation sur des ensembles de données hors domaine. Des analyses approfondies et qualitatives révèlent les avantages du réglage par instruction, des choix d'architecture de modèle et de la généralisation inter-tâches, ainsi que l'émergence de compétences essentielles en raisonnement sur tableaux pendant l'entraînement par renforcement.
English
In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.

Summary

AI-Generated Summary

PDF882May 30, 2025