MTSQL-R1: Rumo ao Texto-para-SQL de Múltiplos Turnos de Longo Horizonte via Treinamento Agente
MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training
October 12, 2025
Autores: Taicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy
cs.AI
Resumo
O Text-to-SQL Multi-turn tem como objetivo traduzir as expressões conversacionais de um usuário em SQL executável, preservando a coerência do diálogo e o alinhamento ao esquema de destino. No entanto, a maioria dos sistemas existentes trata essa tarefa como uma simples tradução de texto e segue um paradigma de curto prazo, gerando uma consulta por turno sem execução, verificação explícita e refinamento, o que resulta em saídas não executáveis ou incoerentes. Apresentamos o MTSQL-R1, uma estrutura de treinamento agentiva para Text-to-SQL multi-turn de longo prazo. Modelamos a tarefa como um Processo de Decisão de Markov (MDP) no qual um agente interage com (i) um banco de dados para feedback de execução e (ii) uma memória de diálogo persistente para verificação de coerência, realizando um ciclo iterativo de propor para executar -> verificar -> refinar até que todas as verificações sejam aprovadas. Experimentos no COSQL e SPARC demonstram que o MTSQL-R1 supera consistentemente as linhas de base fortes, destacando a importância da verificação orientada pelo ambiente e do refinamento guiado pela memória para a análise semântica conversacional. As receitas completas (incluindo código, modelos treinados, logs, trajetórias de raciocínio, etc.) serão liberadas após a revisão interna para contribuir com a pesquisa da comunidade.
English
Multi-turn Text-to-SQL aims to translate a user's conversational utterances
into executable SQL while preserving dialogue coherence and grounding to the
target schema. However, most existing systems only regard this task as a simple
text translation task and follow a short-horizon paradigm, generating a query
per turn without execution, explicit verification, and refinement, which leads
to non-executable or incoherent outputs. We present MTSQL-R1, an agentic
training framework for long-horizon multi-turn Text-to-SQL. We cast the task as
a Markov Decision Process (MDP) in which an agent interacts with (i) a database
for execution feedback and (ii) a persistent dialogue memory for coherence
verification, performing an iterative propose to execute -> verify -> refine
cycle until all checks pass. Experiments on COSQL and SPARC demonstrate that
MTSQL-R1 consistently outperforms strong baselines, highlighting the importance
of environment-driven verification and memory-guided refinement for
conversational semantic parsing. Full recipes (including code, trained models,
logs, reasoning trajectories, etc.) will be released after the internal review
to contribute to community research.