SQL-R1: Обучение модели преобразования естественного языка в SQL с использованием обучения с подкреплением
SQL-R1: Training Natural Language to SQL Reasoning Model By Reinforcement Learning
April 11, 2025
Авторы: Peixian Ma, Xialie Zhuang, Chengjin Xu, Xuhui Jiang, Ran Chen, Jian Guo
cs.AI
Аннотация
Преобразование естественного языка в SQL (NL2SQL) обеспечивает интуитивное взаимодействие с базами данных, преобразуя запросы на естественном языке в структурированные SQL-выражения. Несмотря на недавние достижения в улучшении взаимодействия человека с компьютером в приложениях баз данных, сохраняются значительные проблемы, особенно в отношении производительности вывода в сложных сценариях, включающих соединения нескольких таблиц и вложенные запросы. Современные методы в основном используют контролируемую тонкую настройку (SFT) для обучения модели NL2SQL, что может ограничивать адаптируемость и интерпретируемость в новых средах (например, в финансах и здравоохранении). Для повышения производительности рассуждений модели NL2SQL в указанных сложных ситуациях мы представляем SQL-R1 — новую модель рассуждений NL2SQL, обученную с использованием алгоритмов обучения с подкреплением (RL). Мы разработали специализированную функцию вознаграждения на основе RL, адаптированную для задач NL2SQL, и обсудили влияние холодного старта на эффективность интенсивного обучения. Кроме того, мы достигаем конкурентоспособной точности, используя лишь небольшое количество синтетических данных NL2SQL для расширенного обучения, и дополнительно исследуем инженерию данных для RL. В проведенных экспериментах SQL-R1 достигает точности выполнения 88,6% и 66,6% на эталонных наборах данных Spider и BIRD соответственно, используя только базовую модель объемом 7B.
English
Natural Language to SQL (NL2SQL) enables intuitive interactions with
databases by transforming natural language queries into structured SQL
statements. Despite recent advancements in enhancing human-computer interaction
within database applications, significant challenges persist, particularly
regarding the inference performance in complex scenarios involving multi-table
joins and nested queries. Current methodologies primarily utilize supervised
fine-tuning (SFT) to train the NL2SQL model, which may limit adaptability and
interpretability in new environments (e.g., finance and healthcare). In order
to enhance the reasoning performance of the NL2SQL model in the above complex
situations, we introduce SQL-R1, a novel NL2SQL reasoning model trained by the
reinforcement learning (RL) algorithms. We design a specialized RL-based reward
function tailored for NL2SQL tasks and discussed the impact of cold start on
the effectiveness of intensive training. In addition, we achieve competitive
accuracy using only a tiny amount of synthetic NL2SQL data for augmented
training and further explore data engineering for RL. In existing experiments,
SQL-R1 achieves execution accuracy of 88.6% and 66.6% on the benchmark Spider
and BIRD, respectively, only using the 7B base model.Summary
AI-Generated Summary