Reasoning-SQL: Aprendizaje por Refuerzo con Recompensas Parciales Adaptadas a SQL para Texto-a-SQL Mejorado con Razonamiento

Resumen

Text-to-SQL es una tarea desafiante que involucra múltiples subtareas intensivas en razonamiento, incluyendo la comprensión del lenguaje natural, la interpretación del esquema de la base de datos y la formulación precisa de consultas SQL. Los enfoques existentes suelen depender de rutas de razonamiento manuales con sesgos inductivos que pueden limitar su efectividad general. Motivados por el reciente éxito de modelos mejorados en razonamiento como DeepSeek R1 y OpenAI o1, que aprovechan eficazmente la autoexploración impulsada por recompensas para mejorar las capacidades de razonamiento y generalización, proponemos un conjunto novedoso de recompensas parciales específicamente diseñadas para la tarea de Text-to-SQL. Nuestro conjunto de recompensas incluye enlace de esquema, retroalimentación de IA, similitud de n-gramas y verificación de sintaxis, diseñados explícitamente para abordar el problema de la escasez de recompensas prevalente en el aprendizaje por refuerzo (RL). Aprovechando la optimización de políticas relativas por grupos (GRPO), nuestro enfoque fomenta explícitamente que los modelos de lenguaje grandes (LLMs) desarrollen habilidades de razonamiento intrínsecas necesarias para la generación precisa de consultas SQL. Con modelos de diferentes tamaños, demostramos que el entrenamiento exclusivo con RL utilizando nuestras recompensas propuestas logra consistentemente una mayor precisión y una superior generalización en comparación con el ajuste fino supervisado (SFT). Notablemente, nuestro modelo de 14B parámetros entrenado con RL supera significativamente a modelos propietarios más grandes, como o3-mini en un 4% y Gemini-1.5-Pro-002 en un 3% en el benchmark BIRD. Estos resultados resaltan la eficacia de nuestro marco de entrenamiento RL con recompensas parciales para mejorar tanto la precisión como las capacidades de razonamiento en tareas de Text-to-SQL.

English

Text-to-SQL is a challenging task involving multiple reasoning-intensive subtasks, including natural language understanding, database schema comprehension, and precise SQL query formulation. Existing approaches often rely on handcrafted reasoning paths with inductive biases that can limit their overall effectiveness. Motivated by the recent success of reasoning-enhanced models such as DeepSeek R1 and OpenAI o1, which effectively leverage reward-driven self-exploration to enhance reasoning capabilities and generalization, we propose a novel set of partial rewards tailored specifically for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback, n-gram similarity, and syntax check, explicitly designed to address the reward sparsity issue prevalent in reinforcement learning (RL). Leveraging group relative policy optimization (GRPO), our approach explicitly encourages large language models (LLMs) to develop intrinsic reasoning skills necessary for accurate SQL query generation. With models of different sizes, we demonstrate that RL-only training with our proposed rewards consistently achieves higher accuracy and superior generalization compared to supervised fine-tuning (SFT). Remarkably, our RL-trained 14B-parameter model significantly outperforms larger proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD benchmark. These highlight the efficacy of our proposed RL-training framework with partial rewards for enhancing both accuracy and reasoning capabilities in Text-to-SQL tasks.

Reasoning-SQL: Aprendizaje por Refuerzo con Recompensas Parciales Adaptadas a SQL para Texto-a-SQL Mejorado con Razonamiento

Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

Resumen

Support