ChatPaper.aiChatPaper

MTSQL-R1: Hacia Texto-a-SQL de Múltiples Turnos de Largo Horizonte mediante Entrenamiento Agéntico

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

October 12, 2025
Autores: Taicheng Guo, Hai Wang, ChaoChun Liu, Mohsen Golalikhani, Xin Chen, Xiangliang Zhang, Chandan K. Reddy
cs.AI

Resumen

El objetivo de Multi-turn Text-to-SQL es traducir las expresiones conversacionales de un usuario a SQL ejecutable, manteniendo la coherencia del diálogo y su anclaje al esquema objetivo. Sin embargo, la mayoría de los sistemas existentes consideran esta tarea simplemente como una traducción de texto y siguen un paradigma de corto alcance, generando una consulta por turno sin ejecución, verificación explícita ni refinamiento, lo que resulta en salidas no ejecutables o incoherentes. Presentamos MTSQL-R1, un marco de entrenamiento agencial para Multi-turn Text-to-SQL de largo alcance. Planteamos la tarea como un Proceso de Decisión de Markov (MDP) en el que un agente interactúa con (i) una base de datos para obtener retroalimentación de ejecución y (ii) una memoria de diálogo persistente para la verificación de coherencia, realizando un ciclo iterativo de proponer para ejecutar -> verificar -> refinar hasta que se superen todas las verificaciones. Los experimentos en COSQL y SPARC demuestran que MTSQL-R1 supera consistentemente a las líneas base sólidas, destacando la importancia de la verificación impulsada por el entorno y el refinamiento guiado por la memoria para el análisis semántico conversacional. Las recetas completas (incluyendo código, modelos entrenados, registros, trayectorias de razonamiento, etc.) se publicarán después de la revisión interna para contribuir a la investigación comunitaria.
English
Multi-turn Text-to-SQL aims to translate a user's conversational utterances into executable SQL while preserving dialogue coherence and grounding to the target schema. However, most existing systems only regard this task as a simple text translation task and follow a short-horizon paradigm, generating a query per turn without execution, explicit verification, and refinement, which leads to non-executable or incoherent outputs. We present MTSQL-R1, an agentic training framework for long-horizon multi-turn Text-to-SQL. We cast the task as a Markov Decision Process (MDP) in which an agent interacts with (i) a database for execution feedback and (ii) a persistent dialogue memory for coherence verification, performing an iterative propose to execute -> verify -> refine cycle until all checks pass. Experiments on COSQL and SPARC demonstrate that MTSQL-R1 consistently outperforms strong baselines, highlighting the importance of environment-driven verification and memory-guided refinement for conversational semantic parsing. Full recipes (including code, trained models, logs, reasoning trajectories, etc.) will be released after the internal review to contribute to community research.
PDF22October 16, 2025