Reasoning-SQL : Apprentissage par renforcement avec récompenses partielles adaptées au SQL pour un Text-to-SQL amélioré par le raisonnement
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
March 29, 2025
Auteurs: Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik
cs.AI
Résumé
Text-to-SQL est une tâche complexe impliquant plusieurs sous-tâches nécessitant un raisonnement approfondi, notamment la compréhension du langage naturel, l'interprétation des schémas de base de données et la formulation précise de requêtes SQL. Les approches existantes reposent souvent sur des chemins de raisonnement manuellement conçus avec des biais inductifs qui peuvent limiter leur efficacité globale. Inspirés par les récents succès des modèles améliorés par le raisonnement tels que DeepSeek R1 et OpenAI o1, qui exploitent efficacement l'auto-exploration guidée par des récompenses pour renforcer les capacités de raisonnement et la généralisation, nous proposons un nouvel ensemble de récompenses partielles spécifiquement adaptées à la tâche Text-to-SQL. Notre ensemble de récompenses inclut le lien avec le schéma, le retour d'IA, la similarité n-gram et la vérification syntaxique, conçus explicitement pour résoudre le problème de rareté des récompenses dans l'apprentissage par renforcement (RL). En utilisant l'optimisation de politique relative par groupe (GRPO), notre approche encourage explicitement les grands modèles de langage (LLMs) à développer des compétences de raisonnement intrinsèques nécessaires pour générer des requêtes SQL précises. Avec des modèles de différentes tailles, nous démontrons que l'entraînement uniquement par RL avec nos récompenses proposées atteint systématiquement une précision plus élevée et une meilleure généralisation par rapport au réglage fin supervisé (SFT). De manière remarquable, notre modèle de 14 milliards de paramètres entraîné par RL surpasse significativement des modèles propriétaires plus grands, par exemple o3-mini de 4 % et Gemini-1.5-Pro-002 de 3 % sur le benchmark BIRD. Ces résultats mettent en évidence l'efficacité de notre cadre d'entraînement RL avec des récompenses partielles pour améliorer à la fois la précision et les capacités de raisonnement dans les tâches Text-to-SQL.
English
Text-to-SQL is a challenging task involving multiple reasoning-intensive
subtasks, including natural language understanding, database schema
comprehension, and precise SQL query formulation. Existing approaches often
rely on handcrafted reasoning paths with inductive biases that can limit their
overall effectiveness. Motivated by the recent success of reasoning-enhanced
models such as DeepSeek R1 and OpenAI o1, which effectively leverage
reward-driven self-exploration to enhance reasoning capabilities and
generalization, we propose a novel set of partial rewards tailored specifically
for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback,
n-gram similarity, and syntax check, explicitly designed to address the reward
sparsity issue prevalent in reinforcement learning (RL). Leveraging group
relative policy optimization (GRPO), our approach explicitly encourages large
language models (LLMs) to develop intrinsic reasoning skills necessary for
accurate SQL query generation. With models of different sizes, we demonstrate
that RL-only training with our proposed rewards consistently achieves higher
accuracy and superior generalization compared to supervised fine-tuning (SFT).
Remarkably, our RL-trained 14B-parameter model significantly outperforms larger
proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD
benchmark. These highlight the efficacy of our proposed RL-training framework
with partial rewards for enhancing both accuracy and reasoning capabilities in
Text-to-SQL tasks.Summary
AI-Generated Summary