Tabla-R1: Escalado en Tiempo de Inferencia para Razonamiento sobre TablasTable-R1: Inference-Time Scaling for Table Reasoning
En este trabajo, presentamos el primer estudio que explora el escalado en tiempo de inferencia para tareas de razonamiento sobre tablas. Desarrollamos y evaluamos dos estrategias posteriores al entrenamiento para habilitar el escalado en tiempo de inferencia: destilación a partir de trazas de razonamiento de modelos de vanguardia y aprendizaje por refuerzo con recompensas verificables (RLVR). Para la destilación, introducimos un conjunto de datos a gran escala de trazas de razonamiento generadas por DeepSeek-R1, que utilizamos para ajustar modelos de lenguaje grandes (LLMs) en el modelo Table-R1-SFT. Para RLVR, proponemos funciones de recompensa verificables específicas de la tarea y aplicamos el algoritmo GRPO para obtener el modelo Table-R1-Zero. Evaluamos nuestros modelos de la serie Table-R1 en diversas tareas de razonamiento sobre tablas, incluyendo preguntas y respuestas de formato corto, verificación de hechos y preguntas y respuestas de formato libre. Notablemente, el modelo Table-R1-Zero iguala o supera el rendimiento de GPT-4.1 y DeepSeek-R1, utilizando solo un LLM de 7B parámetros. También demuestra una fuerte generalización a conjuntos de datos fuera del dominio. Análisis exhaustivos de ablación y cualitativos revelan los beneficios del ajuste por instrucción, las elecciones de arquitectura del modelo y la generalización entre tareas, así como la emergencia de habilidades esenciales de razonamiento sobre tablas durante el entrenamiento por refuerzo.