SQL-R1: Training eines Natural Language zu SQL Reasoning Modells durch Reinforcement Learning

papers.abstract

Natural Language to SQL (NL2SQL) ermöglicht intuitive Interaktionen mit Datenbanken, indem natürliche Sprachabfragen in strukturierte SQL-Anweisungen umgewandelt werden. Trotz jüngster Fortschritte bei der Verbesserung der Mensch-Computer-Interaktion in Datenbankanwendungen bestehen weiterhin erhebliche Herausforderungen, insbesondere in Bezug auf die Inferenzleistung in komplexen Szenarien mit Multi-Table-Joins und verschachtelten Abfragen. Aktuelle Methoden nutzen hauptsächlich Supervised Fine-Tuning (SFT), um das NL2SQL-Modell zu trainieren, was die Anpassungsfähigkeit und Interpretierbarkeit in neuen Umgebungen (z. B. Finanzen und Gesundheitswesen) einschränken kann. Um die Reasoning-Leistung des NL2SQL-Modells in den oben genannten komplexen Situationen zu verbessern, führen wir SQL-R1 ein, ein neuartiges NL2SQL-Reasoning-Modell, das mit Reinforcement-Learning (RL)-Algorithmen trainiert wird. Wir entwerfen eine spezialisierte RL-basierte Belohnungsfunktion, die auf NL2SQL-Aufgaben zugeschnitten ist, und diskutieren die Auswirkungen des Cold Starts auf die Effektivität des intensiven Trainings. Darüber hinaus erreichen wir eine wettbewerbsfähige Genauigkeit mit nur einer geringen Menge synthetischer NL2SQL-Daten für das augmentierte Training und untersuchen weiterhin Data Engineering für RL. In bestehenden Experimenten erreicht SQL-R1 eine Ausführungsgenauigkeit von 88,6 % bzw. 66,6 % auf den Benchmarks Spider und BIRD, wobei nur das 7B-Basismodell verwendet wird.

English

Natural Language to SQL (NL2SQL) enables intuitive interactions with databases by transforming natural language queries into structured SQL statements. Despite recent advancements in enhancing human-computer interaction within database applications, significant challenges persist, particularly regarding the inference performance in complex scenarios involving multi-table joins and nested queries. Current methodologies primarily utilize supervised fine-tuning (SFT) to train the NL2SQL model, which may limit adaptability and interpretability in new environments (e.g., finance and healthcare). In order to enhance the reasoning performance of the NL2SQL model in the above complex situations, we introduce SQL-R1, a novel NL2SQL reasoning model trained by the reinforcement learning (RL) algorithms. We design a specialized RL-based reward function tailored for NL2SQL tasks and discussed the impact of cold start on the effectiveness of intensive training. In addition, we achieve competitive accuracy using only a tiny amount of synthetic NL2SQL data for augmented training and further explore data engineering for RL. In existing experiments, SQL-R1 achieves execution accuracy of 88.6% and 66.6% on the benchmark Spider and BIRD, respectively, only using the 7B base model.

SQL-R1: Training eines Natural Language zu SQL Reasoning Modells durch Reinforcement Learning

SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning

papers.abstract

Support