Tabelle-R1: Skalierung zur Inferenzzeit für TabellenverständnisTable-R1: Inference-Time Scaling for Table Reasoning
In dieser Arbeit präsentieren wir die erste Studie, die das Skalieren zur Inferenzzeit bei Tabellenverständnisaufgaben untersucht. Wir entwickeln und evaluieren zwei Post-Training-Strategien, um das Skalieren zur Inferenzzeit zu ermöglichen: Distillation aus Reasoning-Traces von Frontier-Modellen und Reinforcement Learning mit verifizierbaren Belohnungen (RLVR). Für die Distillation führen wir einen groß angelegten Datensatz von Reasoning-Traces ein, die von DeepSeek-R1 generiert wurden, und verwenden diesen, um LLMs in das Table-R1-SFT-Modell zu feintunen. Für RLVR schlagen wir aufgaben spezifische verifizierbare Belohnungsfunktionen vor und wenden den GRPO-Algorithmus an, um das Table-R1-Zero-Modell zu erhalten. Wir evaluieren unsere Table-R1-Serienmodelle über verschiedene Tabellenverständnisaufgaben hinweg, darunter Kurzform-QA, Faktenüberprüfung und Freiform-QA. Bemerkenswerterweise erreicht das Table-R1-Zero-Modell die Leistung von GPT-4.1 und DeepSeek-R1 oder übertrifft sie, obwohl es nur ein 7B-Parameter-LLM verwendet. Es zeigt auch eine starke Generalisierung auf Out-of-Domain-Datensätze. Umfangreiche Ablations- und qualitative Analysen offenbaren die Vorteile des Instruction Tunings, der Modellarchitekturentscheidungen und der übergreifenden Aufgabenverallgemeinerung sowie das Auftreten essenzieller Tabellenverständnisfähigkeiten während des RL-Trainings.