ChatPaper.aiChatPaper

SQL-R1 : Entraînement d'un modèle de raisonnement de langage naturel vers SQL par apprentissage par renforcement

SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

April 11, 2025
Auteurs: Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo
cs.AI

Résumé

La conversion du langage naturel en SQL (NL2SQL) permet des interactions intuitives avec les bases de données en transformant des requêtes en langage naturel en instructions SQL structurées. Malgré les avancées récentes visant à améliorer l'interaction homme-machine dans les applications de bases de données, des défis majeurs subsistent, notamment en ce qui concerne les performances d'inférence dans des scénarios complexes impliquant des jointures multi-tables et des requêtes imbriquées. Les méthodologies actuelles utilisent principalement le fine-tuning supervisé (SFT) pour entraîner les modèles NL2SQL, ce qui peut limiter l'adaptabilité et l'interprétabilité dans de nouveaux environnements (par exemple, la finance et la santé). Afin d'améliorer les performances de raisonnement du modèle NL2SQL dans ces situations complexes, nous introduisons SQL-R1, un nouveau modèle de raisonnement NL2SQL entraîné à l'aide d'algorithmes d'apprentissage par renforcement (RL). Nous concevons une fonction de récompense basée sur le RL, spécialement adaptée aux tâches NL2SQL, et examinons l'impact du démarrage à froid sur l'efficacité de l'entraînement intensif. De plus, nous obtenons une précision compétitive en utilisant seulement une petite quantité de données NL2SQL synthétiques pour l'entraînement augmenté et explorons davantage l'ingénierie des données pour le RL. Dans les expériences existantes, SQL-R1 atteint une précision d'exécution de 88,6 % et 66,6 % sur les benchmarks Spider et BIRD, respectivement, en utilisant uniquement le modèle de base de 7 milliards de paramètres.
English
Natural Language to SQL (NL2SQL) enables intuitive interactions with databases by transforming natural language queries into structured SQL statements. Despite recent advancements in enhancing human-computer interaction within database applications, significant challenges persist, particularly regarding the inference performance in complex scenarios involving multi-table joins and nested queries. Current methodologies primarily utilize supervised fine-tuning (SFT) to train the NL2SQL model, which may limit adaptability and interpretability in new environments (e.g., finance and healthcare). In order to enhance the reasoning performance of the NL2SQL model in the above complex situations, we introduce SQL-R1, a novel NL2SQL reasoning model trained by the reinforcement learning (RL) algorithms. We design a specialized RL-based reward function tailored for NL2SQL tasks and discussed the impact of cold start on the effectiveness of intensive training. In addition, we achieve competitive accuracy using only a tiny amount of synthetic NL2SQL data for augmented training and further explore data engineering for RL. In existing experiments, SQL-R1 achieves execution accuracy of 88.6% and 66.6% on the benchmark Spider and BIRD, respectively, only using the 7B base model.

Summary

AI-Generated Summary

PDF262April 14, 2025