SQL-R1: Entrenamiento de un modelo de razonamiento de lenguaje natural a SQL mediante aprendizaje por refuerzo
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning
April 11, 2025
Autores: Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo
cs.AI
Resumen
Natural Language to SQL (NL2SQL) permite interacciones intuitivas con bases de datos al transformar consultas en lenguaje natural en sentencias SQL estructuradas. A pesar de los avances recientes en la mejora de la interacción humano-computadora en aplicaciones de bases de datos, persisten desafíos significativos, particularmente en relación con el rendimiento de inferencia en escenarios complejos que involucran uniones de múltiples tablas y consultas anidadas. Las metodologías actuales utilizan principalmente el ajuste fino supervisado (SFT) para entrenar el modelo NL2SQL, lo que puede limitar la adaptabilidad y la interpretabilidad en nuevos entornos (por ejemplo, finanzas y atención médica). Para mejorar el rendimiento de razonamiento del modelo NL2SQL en las situaciones complejas mencionadas, presentamos SQL-R1, un novedoso modelo de razonamiento NL2SQL entrenado mediante algoritmos de aprendizaje por refuerzo (RL). Diseñamos una función de recompensa basada en RL especializada para tareas NL2SQL y discutimos el impacto del arranque en frío en la efectividad del entrenamiento intensivo. Además, logramos una precisión competitiva utilizando solo una pequeña cantidad de datos sintéticos NL2SQL para entrenamiento aumentado y exploramos más a fondo la ingeniería de datos para RL. En experimentos existentes, SQL-R1 alcanza una precisión de ejecución del 88.6% y 66.6% en los benchmarks Spider y BIRD, respectivamente, utilizando únicamente el modelo base de 7B.
English
Natural Language to SQL (NL2SQL) enables intuitive interactions with
databases by transforming natural language queries into structured SQL
statements. Despite recent advancements in enhancing human-computer interaction
within database applications, significant challenges persist, particularly
regarding the inference performance in complex scenarios involving multi-table
joins and nested queries. Current methodologies primarily utilize supervised
fine-tuning (SFT) to train the NL2SQL model, which may limit adaptability and
interpretability in new environments (e.g., finance and healthcare). In order
to enhance the reasoning performance of the NL2SQL model in the above complex
situations, we introduce SQL-R1, a novel NL2SQL reasoning model trained by the
reinforcement learning (RL) algorithms. We design a specialized RL-based reward
function tailored for NL2SQL tasks and discussed the impact of cold start on
the effectiveness of intensive training. In addition, we achieve competitive
accuracy using only a tiny amount of synthetic NL2SQL data for augmented
training and further explore data engineering for RL. In existing experiments,
SQL-R1 achieves execution accuracy of 88.6% and 66.6% on the benchmark Spider
and BIRD, respectively, only using the 7B base model.Summary
AI-Generated Summary