SQL-R1: Training eines Natural Language zu SQL Reasoning Modells durch Reinforcement Learning
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning
April 11, 2025
Autoren: Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo
cs.AI
Zusammenfassung
Natural Language to SQL (NL2SQL) ermöglicht intuitive Interaktionen mit Datenbanken, indem natürliche Sprachabfragen in strukturierte SQL-Anweisungen umgewandelt werden. Trotz jüngster Fortschritte bei der Verbesserung der Mensch-Computer-Interaktion in Datenbankanwendungen bestehen weiterhin erhebliche Herausforderungen, insbesondere in Bezug auf die Inferenzleistung in komplexen Szenarien mit Multi-Table-Joins und verschachtelten Abfragen. Aktuelle Methoden nutzen hauptsächlich Supervised Fine-Tuning (SFT), um das NL2SQL-Modell zu trainieren, was die Anpassungsfähigkeit und Interpretierbarkeit in neuen Umgebungen (z. B. Finanzen und Gesundheitswesen) einschränken kann. Um die Reasoning-Leistung des NL2SQL-Modells in den oben genannten komplexen Situationen zu verbessern, führen wir SQL-R1 ein, ein neuartiges NL2SQL-Reasoning-Modell, das mit Reinforcement-Learning (RL)-Algorithmen trainiert wird. Wir entwerfen eine spezialisierte RL-basierte Belohnungsfunktion, die auf NL2SQL-Aufgaben zugeschnitten ist, und diskutieren die Auswirkungen des Cold Starts auf die Effektivität des intensiven Trainings. Darüber hinaus erreichen wir eine wettbewerbsfähige Genauigkeit mit nur einer geringen Menge synthetischer NL2SQL-Daten für das augmentierte Training und untersuchen weiterhin Data Engineering für RL. In bestehenden Experimenten erreicht SQL-R1 eine Ausführungsgenauigkeit von 88,6 % bzw. 66,6 % auf den Benchmarks Spider und BIRD, wobei nur das 7B-Basismodell verwendet wird.
English
Natural Language to SQL (NL2SQL) enables intuitive interactions with
databases by transforming natural language queries into structured SQL
statements. Despite recent advancements in enhancing human-computer interaction
within database applications, significant challenges persist, particularly
regarding the inference performance in complex scenarios involving multi-table
joins and nested queries. Current methodologies primarily utilize supervised
fine-tuning (SFT) to train the NL2SQL model, which may limit adaptability and
interpretability in new environments (e.g., finance and healthcare). In order
to enhance the reasoning performance of the NL2SQL model in the above complex
situations, we introduce SQL-R1, a novel NL2SQL reasoning model trained by the
reinforcement learning (RL) algorithms. We design a specialized RL-based reward
function tailored for NL2SQL tasks and discussed the impact of cold start on
the effectiveness of intensive training. In addition, we achieve competitive
accuracy using only a tiny amount of synthetic NL2SQL data for augmented
training and further explore data engineering for RL. In existing experiments,
SQL-R1 achieves execution accuracy of 88.6% and 66.6% on the benchmark Spider
and BIRD, respectively, only using the 7B base model.Summary
AI-Generated Summary