MTSQL-R1: Verso il Text-to-SQL a Lungo Orizzonte Multi-Turn tramite Addestramento Agente
MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training
October 12, 2025
Autori: Taicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy
cs.AI
Abstract
Il Multi-turn Text-to-SQL mira a tradurre le espressioni conversazionali di un utente in SQL eseguibile, preservando la coerenza del dialogo e il collegamento allo schema di destinazione. Tuttavia, la maggior parte dei sistemi esistenti considera questo compito come una semplice traduzione testuale e segue un paradigma a breve termine, generando una query per turno senza esecuzione, verifica esplicita e raffinamento, il che porta a output non eseguibili o incoerenti. Presentiamo MTSQL-R1, un framework di formazione agentico per il Multi-turn Text-to-SQL a lungo termine. Inquadriamo il compito come un Processo Decisionale di Markov (MDP) in cui un agente interagisce con (i) un database per ottenere feedback sull'esecuzione e (ii) una memoria di dialogo persistente per la verifica della coerenza, eseguendo un ciclo iterativo di proposta -> esecuzione -> verifica -> raffinamento fino al superamento di tutti i controlli. Gli esperimenti su COSQL e SPARC dimostrano che MTSQL-R1 supera costantemente i forti baseline, evidenziando l'importanza della verifica guidata dall'ambiente e del raffinamento guidato dalla memoria per il parsing semantico conversazionale. Le ricette complete (inclusi codice, modelli addestrati, log, traiettorie di ragionamento, ecc.) saranno rilasciate dopo la revisione interna per contribuire alla ricerca della comunità.
English
Multi-turn Text-to-SQL aims to translate a user's conversational utterances
into executable SQL while preserving dialogue coherence and grounding to the
target schema. However, most existing systems only regard this task as a simple
text translation task and follow a short-horizon paradigm, generating a query
per turn without execution, explicit verification, and refinement, which leads
to non-executable or incoherent outputs. We present MTSQL-R1, an agentic
training framework for long-horizon multi-turn Text-to-SQL. We cast the task as
a Markov Decision Process (MDP) in which an agent interacts with (i) a database
for execution feedback and (ii) a persistent dialogue memory for coherence
verification, performing an iterative propose to execute -> verify -> refine
cycle until all checks pass. Experiments on COSQL and SPARC demonstrate that
MTSQL-R1 consistently outperforms strong baselines, highlighting the importance
of environment-driven verification and memory-guided refinement for
conversational semantic parsing. Full recipes (including code, trained models,
logs, reasoning trajectories, etc.) will be released after the internal review
to contribute to community research.