Reasoning-SQL: Aprendizaje por Refuerzo con Recompensas Parciales Adaptadas a SQL para Texto-a-SQL Mejorado con Razonamiento
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
March 29, 2025
Autores: Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik
cs.AI
Resumen
Text-to-SQL es una tarea desafiante que involucra múltiples subtareas intensivas en razonamiento, incluyendo la comprensión del lenguaje natural, la interpretación del esquema de la base de datos y la formulación precisa de consultas SQL. Los enfoques existentes suelen depender de rutas de razonamiento manuales con sesgos inductivos que pueden limitar su efectividad general. Motivados por el reciente éxito de modelos mejorados en razonamiento como DeepSeek R1 y OpenAI o1, que aprovechan eficazmente la autoexploración impulsada por recompensas para mejorar las capacidades de razonamiento y generalización, proponemos un conjunto novedoso de recompensas parciales específicamente diseñadas para la tarea de Text-to-SQL. Nuestro conjunto de recompensas incluye enlace de esquema, retroalimentación de IA, similitud de n-gramas y verificación de sintaxis, diseñados explícitamente para abordar el problema de la escasez de recompensas prevalente en el aprendizaje por refuerzo (RL). Aprovechando la optimización de políticas relativas por grupos (GRPO), nuestro enfoque fomenta explícitamente que los modelos de lenguaje grandes (LLMs) desarrollen habilidades de razonamiento intrínsecas necesarias para la generación precisa de consultas SQL. Con modelos de diferentes tamaños, demostramos que el entrenamiento exclusivo con RL utilizando nuestras recompensas propuestas logra consistentemente una mayor precisión y una superior generalización en comparación con el ajuste fino supervisado (SFT). Notablemente, nuestro modelo de 14B parámetros entrenado con RL supera significativamente a modelos propietarios más grandes, como o3-mini en un 4% y Gemini-1.5-Pro-002 en un 3% en el benchmark BIRD. Estos resultados resaltan la eficacia de nuestro marco de entrenamiento RL con recompensas parciales para mejorar tanto la precisión como las capacidades de razonamiento en tareas de Text-to-SQL.
English
Text-to-SQL is a challenging task involving multiple reasoning-intensive
subtasks, including natural language understanding, database schema
comprehension, and precise SQL query formulation. Existing approaches often
rely on handcrafted reasoning paths with inductive biases that can limit their
overall effectiveness. Motivated by the recent success of reasoning-enhanced
models such as DeepSeek R1 and OpenAI o1, which effectively leverage
reward-driven self-exploration to enhance reasoning capabilities and
generalization, we propose a novel set of partial rewards tailored specifically
for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback,
n-gram similarity, and syntax check, explicitly designed to address the reward
sparsity issue prevalent in reinforcement learning (RL). Leveraging group
relative policy optimization (GRPO), our approach explicitly encourages large
language models (LLMs) to develop intrinsic reasoning skills necessary for
accurate SQL query generation. With models of different sizes, we demonstrate
that RL-only training with our proposed rewards consistently achieves higher
accuracy and superior generalization compared to supervised fine-tuning (SFT).
Remarkably, our RL-trained 14B-parameter model significantly outperforms larger
proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD
benchmark. These highlight the efficacy of our proposed RL-training framework
with partial rewards for enhancing both accuracy and reasoning capabilities in
Text-to-SQL tasks.Summary
AI-Generated Summary