MTSQL-R1: К долгосрочному многошаговому преобразованию текста в SQL через агентное обучение

Аннотация

Многошаговый Text-to-SQL направлен на преобразование реплик пользователя в диалоге в исполняемые SQL-запросы, сохраняя при этом связность диалога и привязку к целевой схеме. Однако большинство существующих систем рассматривают эту задачу как простую задачу перевода текста и следуют краткосрочной парадигме, генерируя запрос на каждый шаг без выполнения, явной проверки и уточнения, что приводит к неисполнимым или несвязным результатам. Мы представляем MTSQL-R1, агентскую обучающую структуру для долгосрочного многошагового Text-to-SQL. Мы формулируем задачу как Марковский процесс принятия решений (MDP), в котором агент взаимодействует (i) с базой данных для получения обратной связи по выполнению и (ii) с постоянной памятью диалога для проверки связности, выполняя итеративный цикл "предложить -> выполнить -> проверить -> уточнить" до тех пор, пока все проверки не будут пройдены. Эксперименты на COSQL и SPARC демонстрируют, что MTSQL-R1 стабильно превосходит сильные базовые подходы, подчеркивая важность проверки, основанной на окружении, и уточнения, направляемого памятью, для семантического анализа в диалогах. Полные рецепты (включая код, обученные модели, логи, траектории рассуждений и т.д.) будут опубликованы после внутреннего рецензирования для вклада в исследования сообщества.

English

Multi-turn Text-to-SQL aims to translate a user's conversational utterances into executable SQL while preserving dialogue coherence and grounding to the target schema. However, most existing systems only regard this task as a simple text translation task and follow a short-horizon paradigm, generating a query per turn without execution, explicit verification, and refinement, which leads to non-executable or incoherent outputs. We present MTSQL-R1, an agentic training framework for long-horizon multi-turn Text-to-SQL. We cast the task as a Markov Decision Process (MDP) in which an agent interacts with (i) a database for execution feedback and (ii) a persistent dialogue memory for coherence verification, performing an iterative propose to execute -> verify -> refine cycle until all checks pass. Experiments on COSQL and SPARC demonstrate that MTSQL-R1 consistently outperforms strong baselines, highlighting the importance of environment-driven verification and memory-guided refinement for conversational semantic parsing. Full recipes (including code, trained models, logs, reasoning trajectories, etc.) will be released after the internal review to contribute to community research.

MTSQL-R1: К долгосрочному многошаговому преобразованию текста в SQL через агентное обучение

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

Аннотация

Support