Tabla-R1: Escalado en Tiempo de Inferencia para Razonamiento sobre Tablas
Table-R1: Inference-Time Scaling for Table Reasoning
May 29, 2025
Autores: Zheyuan Yang, Lyuhao Chen, Arman Cohan, Yilun Zhao
cs.AI
Resumen
En este trabajo, presentamos el primer estudio que explora el escalado en tiempo de inferencia para tareas de razonamiento sobre tablas. Desarrollamos y evaluamos dos estrategias posteriores al entrenamiento para habilitar el escalado en tiempo de inferencia: destilación a partir de trazas de razonamiento de modelos de vanguardia y aprendizaje por refuerzo con recompensas verificables (RLVR). Para la destilación, introducimos un conjunto de datos a gran escala de trazas de razonamiento generadas por DeepSeek-R1, que utilizamos para ajustar modelos de lenguaje grandes (LLMs) en el modelo Table-R1-SFT. Para RLVR, proponemos funciones de recompensa verificables específicas de la tarea y aplicamos el algoritmo GRPO para obtener el modelo Table-R1-Zero. Evaluamos nuestros modelos de la serie Table-R1 en diversas tareas de razonamiento sobre tablas, incluyendo preguntas y respuestas de formato corto, verificación de hechos y preguntas y respuestas de formato libre. Notablemente, el modelo Table-R1-Zero iguala o supera el rendimiento de GPT-4.1 y DeepSeek-R1, utilizando solo un LLM de 7B parámetros. También demuestra una fuerte generalización a conjuntos de datos fuera del dominio. Análisis exhaustivos de ablación y cualitativos revelan los beneficios del ajuste por instrucción, las elecciones de arquitectura del modelo y la generalización entre tareas, así como la emergencia de habilidades esenciales de razonamiento sobre tablas durante el entrenamiento por refuerzo.
English
In this work, we present the first study to explore inference-time scaling on
table reasoning tasks. We develop and evaluate two post-training strategies to
enable inference-time scaling: distillation from frontier model reasoning
traces and reinforcement learning with verifiable rewards (RLVR). For
distillation, we introduce a large-scale dataset of reasoning traces generated
by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For
RLVR, we propose task-specific verifiable reward functions and apply the GRPO
algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series
models across diverse table reasoning tasks, including short-form QA, fact
verification, and free-form QA. Notably, the Table-R1-Zero model matches or
exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a
7B-parameter LLM. It also demonstrates strong generalization to out-of-domain
datasets. Extensive ablation and qualitative analyses reveal the benefits of
instruction tuning, model architecture choices, and cross-task generalization,
as well as emergence of essential table reasoning skills during RL training.Summary
AI-Generated Summary