MTSQL-R1: Verso il Text-to-SQL a Lungo Orizzonte Multi-Turn tramite Addestramento Agente

Abstract

Il Multi-turn Text-to-SQL mira a tradurre le espressioni conversazionali di un utente in SQL eseguibile, preservando la coerenza del dialogo e il collegamento allo schema di destinazione. Tuttavia, la maggior parte dei sistemi esistenti considera questo compito come una semplice traduzione testuale e segue un paradigma a breve termine, generando una query per turno senza esecuzione, verifica esplicita e raffinamento, il che porta a output non eseguibili o incoerenti. Presentiamo MTSQL-R1, un framework di formazione agentico per il Multi-turn Text-to-SQL a lungo termine. Inquadriamo il compito come un Processo Decisionale di Markov (MDP) in cui un agente interagisce con (i) un database per ottenere feedback sull'esecuzione e (ii) una memoria di dialogo persistente per la verifica della coerenza, eseguendo un ciclo iterativo di proposta -> esecuzione -> verifica -> raffinamento fino al superamento di tutti i controlli. Gli esperimenti su COSQL e SPARC dimostrano che MTSQL-R1 supera costantemente i forti baseline, evidenziando l'importanza della verifica guidata dall'ambiente e del raffinamento guidato dalla memoria per il parsing semantico conversazionale. Le ricette complete (inclusi codice, modelli addestrati, log, traiettorie di ragionamento, ecc.) saranno rilasciate dopo la revisione interna per contribuire alla ricerca della comunità.

English

Multi-turn Text-to-SQL aims to translate a user's conversational utterances into executable SQL while preserving dialogue coherence and grounding to the target schema. However, most existing systems only regard this task as a simple text translation task and follow a short-horizon paradigm, generating a query per turn without execution, explicit verification, and refinement, which leads to non-executable or incoherent outputs. We present MTSQL-R1, an agentic training framework for long-horizon multi-turn Text-to-SQL. We cast the task as a Markov Decision Process (MDP) in which an agent interacts with (i) a database for execution feedback and (ii) a persistent dialogue memory for coherence verification, performing an iterative propose to execute -> verify -> refine cycle until all checks pass. Experiments on COSQL and SPARC demonstrate that MTSQL-R1 consistently outperforms strong baselines, highlighting the importance of environment-driven verification and memory-guided refinement for conversational semantic parsing. Full recipes (including code, trained models, logs, reasoning trajectories, etc.) will be released after the internal review to contribute to community research.

MTSQL-R1: Verso il Text-to-SQL a Lungo Orizzonte Multi-Turn tramite Addestramento Agente

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

Abstract

Support