Reasoning-SQL: Verstärkungslernen mit SQL-angepassten Teilbelohnungen für Reasoning-optimiertes Text-zu-SQL

papers.abstract

Text-to-SQL ist eine anspruchsvolle Aufgabe, die mehrere reasoning-intensive Teilaufgaben umfasst, darunter das Verständnis natürlicher Sprache, das Erfassen von Datenbankschemata und die präzise Formulierung von SQL-Abfragen. Bestehende Ansätze verlassen sich oft auf handgefertigte Reasoning-Pfade mit induktiven Verzerrungen, die ihre Gesamteffektivität einschränken können. Motiviert durch den jüngsten Erfolg von Reasoning-verstärkten Modellen wie DeepSeek R1 und OpenAI o1, die belohnungsgesteuerte Selbsterkundung effektiv nutzen, um Reasoning-Fähigkeiten und Generalisierung zu verbessern, schlagen wir einen neuartigen Satz von Teilbelohnungen vor, die speziell für die Text-to-SQL-Aufgabe entwickelt wurden. Unser Belohnungssatz umfasst Schema-Linking, KI-Feedback, N-Gram-Ähnlichkeit und Syntaxprüfung, die explizit darauf abzielen, das Problem der Belohnungssparsamkeit im Reinforcement Learning (RL) zu adressieren. Durch die Nutzung von Group Relative Policy Optimization (GRPO) fördert unser Ansatz explizit die Entwicklung intrinsischer Reasoning-Fähigkeiten, die für die präzise Generierung von SQL-Abfragen durch große Sprachmodelle (LLMs) notwendig sind. Mit Modellen unterschiedlicher Größe zeigen wir, dass RL-only-Training mit unseren vorgeschlagenen Belohnungen durchweg höhere Genauigkeit und überlegene Generalisierung im Vergleich zum Supervised Fine-Tuning (SFT) erreicht. Bemerkenswerterweise übertrifft unser RL-trainiertes 14B-Parameter-Modell größere proprietäre Modelle, z.B. o3-mini um 4 % und Gemini-1.5-Pro-002 um 3 % auf dem BIRD-Benchmark. Diese Ergebnisse unterstreichen die Wirksamkeit unseres vorgeschlagenen RL-Trainingsframeworks mit Teilbelohnungen zur Steigerung sowohl der Genauigkeit als auch der Reasoning-Fähigkeiten in Text-to-SQL-Aufgaben.

English

Text-to-SQL is a challenging task involving multiple reasoning-intensive subtasks, including natural language understanding, database schema comprehension, and precise SQL query formulation. Existing approaches often rely on handcrafted reasoning paths with inductive biases that can limit their overall effectiveness. Motivated by the recent success of reasoning-enhanced models such as DeepSeek R1 and OpenAI o1, which effectively leverage reward-driven self-exploration to enhance reasoning capabilities and generalization, we propose a novel set of partial rewards tailored specifically for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback, n-gram similarity, and syntax check, explicitly designed to address the reward sparsity issue prevalent in reinforcement learning (RL). Leveraging group relative policy optimization (GRPO), our approach explicitly encourages large language models (LLMs) to develop intrinsic reasoning skills necessary for accurate SQL query generation. With models of different sizes, we demonstrate that RL-only training with our proposed rewards consistently achieves higher accuracy and superior generalization compared to supervised fine-tuning (SFT). Remarkably, our RL-trained 14B-parameter model significantly outperforms larger proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD benchmark. These highlight the efficacy of our proposed RL-training framework with partial rewards for enhancing both accuracy and reasoning capabilities in Text-to-SQL tasks.

Reasoning-SQL: Verstärkungslernen mit SQL-angepassten Teilbelohnungen für Reasoning-optimiertes Text-zu-SQL

Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL

papers.abstract

Support