Tabla-R1: Escalado en Tiempo de Inferencia para Razonamiento sobre Tablas

Resumen

En este trabajo, presentamos el primer estudio que explora el escalado en tiempo de inferencia para tareas de razonamiento sobre tablas. Desarrollamos y evaluamos dos estrategias posteriores al entrenamiento para habilitar el escalado en tiempo de inferencia: destilación a partir de trazas de razonamiento de modelos de vanguardia y aprendizaje por refuerzo con recompensas verificables (RLVR). Para la destilación, introducimos un conjunto de datos a gran escala de trazas de razonamiento generadas por DeepSeek-R1, que utilizamos para ajustar modelos de lenguaje grandes (LLMs) en el modelo Table-R1-SFT. Para RLVR, proponemos funciones de recompensa verificables específicas de la tarea y aplicamos el algoritmo GRPO para obtener el modelo Table-R1-Zero. Evaluamos nuestros modelos de la serie Table-R1 en diversas tareas de razonamiento sobre tablas, incluyendo preguntas y respuestas de formato corto, verificación de hechos y preguntas y respuestas de formato libre. Notablemente, el modelo Table-R1-Zero iguala o supera el rendimiento de GPT-4.1 y DeepSeek-R1, utilizando solo un LLM de 7B parámetros. También demuestra una fuerte generalización a conjuntos de datos fuera del dominio. Análisis exhaustivos de ablación y cualitativos revelan los beneficios del ajuste por instrucción, las elecciones de arquitectura del modelo y la generalización entre tareas, así como la emergencia de habilidades esenciales de razonamiento sobre tablas durante el entrenamiento por refuerzo.

English

In this work, we present the first study to explore inference-time scaling on table reasoning tasks. We develop and evaluate two post-training strategies to enable inference-time scaling: distillation from frontier model reasoning traces and reinforcement learning with verifiable rewards (RLVR). For distillation, we introduce a large-scale dataset of reasoning traces generated by DeepSeek-R1, which we use to fine-tune LLMs into the Table-R1-SFT model. For RLVR, we propose task-specific verifiable reward functions and apply the GRPO algorithm to obtain the Table-R1-Zero model. We evaluate our Table-R1-series models across diverse table reasoning tasks, including short-form QA, fact verification, and free-form QA. Notably, the Table-R1-Zero model matches or exceeds the performance of GPT-4.1 and DeepSeek-R1, while using only a 7B-parameter LLM. It also demonstrates strong generalization to out-of-domain datasets. Extensive ablation and qualitative analyses reveal the benefits of instruction tuning, model architecture choices, and cross-task generalization, as well as emergence of essential table reasoning skills during RL training.

Tabla-R1: Escalado en Tiempo de Inferencia para Razonamiento sobre Tablas

Table-R1: Inference-Time Scaling for Table Reasoning

Resumen

Support