ChatPaper.aiChatPaper

MTSQL-R1: Naar Langetermijn Multi-Turn Text-to-SQL via Agentische Training

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

October 12, 2025
Auteurs: Taicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy
cs.AI

Samenvatting

Multi-turn Text-to-SQL heeft als doel de conversatie-uitingen van een gebruiker te vertalen naar uitvoerbare SQL, waarbij de dialoogsamenhang en de verankering aan het doelschema behouden blijven. De meeste bestaande systemen beschouwen deze taak echter slechts als een eenvoudige tekstvertalingstaak en volgen een kortetermijnparadigma, waarbij per beurt een query wordt gegenereerd zonder uitvoering, expliciete verificatie en verfijning, wat leidt tot niet-uitvoerbare of onsamenhangende resultaten. Wij presenteren MTSQL-R1, een agent-gebaseerd trainingsraamwerk voor langetermijn multi-turn Text-to-SQL. We formuleren de taak als een Markov Decision Process (MDP) waarin een agent interageert met (i) een database voor uitvoeringsfeedback en (ii) een permanent dialooggeheugen voor samenhangsverificatie, en een iteratieve cyclus van voorstellen -> uitvoeren -> verifiëren -> verfijnen doorloopt totdat alle controles zijn geslaagd. Experimenten op COSQL en SPARC tonen aan dat MTSQL-R1 consequent sterke baseline-methoden overtreft, wat het belang benadrukt van omgeving-gestuurde verificatie en geheugen-gestuurde verfijning voor conversatie-semantische parsing. Volledige recepten (inclusief code, getrainde modellen, logs, redeneertrajecten, enz.) zullen na interne review worden vrijgegeven om bij te dragen aan gemeenschapsonderzoek.
English
Multi-turn Text-to-SQL aims to translate a user's conversational utterances into executable SQL while preserving dialogue coherence and grounding to the target schema. However, most existing systems only regard this task as a simple text translation task and follow a short-horizon paradigm, generating a query per turn without execution, explicit verification, and refinement, which leads to non-executable or incoherent outputs. We present MTSQL-R1, an agentic training framework for long-horizon multi-turn Text-to-SQL. We cast the task as a Markov Decision Process (MDP) in which an agent interacts with (i) a database for execution feedback and (ii) a persistent dialogue memory for coherence verification, performing an iterative propose to execute -> verify -> refine cycle until all checks pass. Experiments on COSQL and SPARC demonstrate that MTSQL-R1 consistently outperforms strong baselines, highlighting the importance of environment-driven verification and memory-guided refinement for conversational semantic parsing. Full recipes (including code, trained models, logs, reasoning trajectories, etc.) will be released after the internal review to contribute to community research.
PDF22October 16, 2025