ChatPaper.aiChatPaper

Tabelle-R1: Skalierung zur Inferenzzeit für Tabellenverständnis

Table-R1: Inference-Time Scaling for Table Reasoning

May 29, 2025
Autoren: Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao
cs.AI

Zusammenfassung

In dieser Arbeit präsentieren wir die erste Studie, die das Skalieren zur Inferenzzeit bei Tabellenverständnisaufgaben untersucht. Wir entwickeln und evaluieren zwei Post-Training-Strategien, um das Skalieren zur Inferenzzeit zu ermöglichen: Distillation aus Reasoning-Traces von Frontier-Modellen und Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Für die Distillation führen wir einen groß angelegten Datensatz von Reasoning-Traces ein, die von DeepSeek-R1 generiert wurden, und verwenden diesen, um LLMs in das Table-R1-SFT-Modell zu feintunen. Für RLVR schlagen wir aufgaben spezifische verifizierbare Belohnungsfunktionen vor und wenden den GRPO-Algorithmus an, um das Table-R1-Zero-Modell zu erhalten. Wir evaluieren unsere Table-R1-Serienmodelle über verschiedene Tabellenverständnisaufgaben hinweg, darunter Kurzform-QA, Faktenüberprüfung und Freiform-QA. Bemerkenswerterweise erreicht das Table-R1-Zero-Modell die Leistung von GPT-4.1 und DeepSeek-R1 oder übertrifft sie, obwohl es nur ein 7B-Parameter-LLM verwendet. Es zeigt auch eine starke Generalisierung auf Out-of-Domain-Datensätze. Umfangreiche Ablations- und qualitative Analysen offenbaren die Vorteile des Instruction Tunings, der Modellarchitekturentscheidungen und der übergreifenden Aufgabenverallgemeinerung sowie das Auftreten essenzieller Tabellenverständnisfähigkeiten während des RL-Trainings.
English
In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.

Summary

AI-Generated Summary

PDF882May 30, 2025