MTSQL-R1: К долгосрочному многошаговому преобразованию текста в SQL через агентное обучение
MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training
October 12, 2025
Авторы: Taicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy
cs.AI
Аннотация
Многошаговый Text-to-SQL направлен на преобразование реплик пользователя в диалоге в исполняемые SQL-запросы, сохраняя при этом связность диалога и привязку к целевой схеме. Однако большинство существующих систем рассматривают эту задачу как простую задачу перевода текста и следуют краткосрочной парадигме, генерируя запрос на каждый шаг без выполнения, явной проверки и уточнения, что приводит к неисполнимым или несвязным результатам. Мы представляем MTSQL-R1, агентскую обучающую структуру для долгосрочного многошагового Text-to-SQL. Мы формулируем задачу как Марковский процесс принятия решений (MDP), в котором агент взаимодействует (i) с базой данных для получения обратной связи по выполнению и (ii) с постоянной памятью диалога для проверки связности, выполняя итеративный цикл "предложить -> выполнить -> проверить -> уточнить" до тех пор, пока все проверки не будут пройдены. Эксперименты на COSQL и SPARC демонстрируют, что MTSQL-R1 стабильно превосходит сильные базовые подходы, подчеркивая важность проверки, основанной на окружении, и уточнения, направляемого памятью, для семантического анализа в диалогах. Полные рецепты (включая код, обученные модели, логи, траектории рассуждений и т.д.) будут опубликованы после внутреннего рецензирования для вклада в исследования сообщества.
English
Multi-turn Text-to-SQL aims to translate a user's conversational utterances
into executable SQL while preserving dialogue coherence and grounding to the
target schema. However, most existing systems only regard this task as a simple
text translation task and follow a short-horizon paradigm, generating a query
per turn without execution, explicit verification, and refinement, which leads
to non-executable or incoherent outputs. We present MTSQL-R1, an agentic
training framework for long-horizon multi-turn Text-to-SQL. We cast the task as
a Markov Decision Process (MDP) in which an agent interacts with (i) a database
for execution feedback and (ii) a persistent dialogue memory for coherence
verification, performing an iterative propose to execute -> verify -> refine
cycle until all checks pass. Experiments on COSQL and SPARC demonstrate that
MTSQL-R1 consistently outperforms strong baselines, highlighting the importance
of environment-driven verification and memory-guided refinement for
conversational semantic parsing. Full recipes (including code, trained models,
logs, reasoning trajectories, etc.) will be released after the internal review
to contribute to community research.