Reasoning-SQL: Verstärkungslernen mit SQL-angepassten Teilbelohnungen für Reasoning-optimiertes Text-zu-SQL
Reasoning-SQL: Reinforcement Learning with SQL Tailored Partial Rewards for Reasoning-Enhanced Text-to-SQL
March 29, 2025
Autoren: Mohammadreza Pourreza, Shayan Talaei, Ruoxi Sun, Xingchen Wan, Hailong Li, Azalia Mirhoseini, Amin Saberi, Sercan "O. Arik
cs.AI
Zusammenfassung
Text-to-SQL ist eine anspruchsvolle Aufgabe, die mehrere reasoning-intensive Teilaufgaben umfasst, darunter das Verständnis natürlicher Sprache, das Erfassen von Datenbankschemata und die präzise Formulierung von SQL-Abfragen. Bestehende Ansätze verlassen sich oft auf handgefertigte Reasoning-Pfade mit induktiven Verzerrungen, die ihre Gesamteffektivität einschränken können. Motiviert durch den jüngsten Erfolg von Reasoning-verstärkten Modellen wie DeepSeek R1 und OpenAI o1, die belohnungsgesteuerte Selbsterkundung effektiv nutzen, um Reasoning-Fähigkeiten und Generalisierung zu verbessern, schlagen wir einen neuartigen Satz von Teilbelohnungen vor, die speziell für die Text-to-SQL-Aufgabe entwickelt wurden. Unser Belohnungssatz umfasst Schema-Linking, KI-Feedback, N-Gram-Ähnlichkeit und Syntaxprüfung, die explizit darauf abzielen, das Problem der Belohnungssparsamkeit im Reinforcement Learning (RL) zu adressieren. Durch die Nutzung von Group Relative Policy Optimization (GRPO) fördert unser Ansatz explizit die Entwicklung intrinsischer Reasoning-Fähigkeiten, die für die präzise Generierung von SQL-Abfragen durch große Sprachmodelle (LLMs) notwendig sind. Mit Modellen unterschiedlicher Größe zeigen wir, dass RL-only-Training mit unseren vorgeschlagenen Belohnungen durchweg höhere Genauigkeit und überlegene Generalisierung im Vergleich zum Supervised Fine-Tuning (SFT) erreicht. Bemerkenswerterweise übertrifft unser RL-trainiertes 14B-Parameter-Modell größere proprietäre Modelle, z.B. o3-mini um 4 % und Gemini-1.5-Pro-002 um 3 % auf dem BIRD-Benchmark. Diese Ergebnisse unterstreichen die Wirksamkeit unseres vorgeschlagenen RL-Trainingsframeworks mit Teilbelohnungen zur Steigerung sowohl der Genauigkeit als auch der Reasoning-Fähigkeiten in Text-to-SQL-Aufgaben.
English
Text-to-SQL is a challenging task involving multiple reasoning-intensive
subtasks, including natural language understanding, database schema
comprehension, and precise SQL query formulation. Existing approaches often
rely on handcrafted reasoning paths with inductive biases that can limit their
overall effectiveness. Motivated by the recent success of reasoning-enhanced
models such as DeepSeek R1 and OpenAI o1, which effectively leverage
reward-driven self-exploration to enhance reasoning capabilities and
generalization, we propose a novel set of partial rewards tailored specifically
for the Text-to-SQL task. Our reward set includes schema-linking, AI feedback,
n-gram similarity, and syntax check, explicitly designed to address the reward
sparsity issue prevalent in reinforcement learning (RL). Leveraging group
relative policy optimization (GRPO), our approach explicitly encourages large
language models (LLMs) to develop intrinsic reasoning skills necessary for
accurate SQL query generation. With models of different sizes, we demonstrate
that RL-only training with our proposed rewards consistently achieves higher
accuracy and superior generalization compared to supervised fine-tuning (SFT).
Remarkably, our RL-trained 14B-parameter model significantly outperforms larger
proprietary models, e.g. o3-mini by 4% and Gemini-1.5-Pro-002 by 3% on the BIRD
benchmark. These highlight the efficacy of our proposed RL-training framework
with partial rewards for enhancing both accuracy and reasoning capabilities in
Text-to-SQL tasks.Summary
AI-Generated Summary