R^3-SQL: Recompensa de Clasificación y Remuestreo para Texto a SQL
R^3-SQL: Ranking Reward and Resampling for Text-to-SQL
April 28, 2026
Autores: Hojae Han, Yeonseok Jeong, Seung-won Hwang, Zhewei Yao, Yuxiong He
cs.AI
Resumen
Los sistemas modernos de Texto a SQL generan múltiples consultas SQL candidatas y las clasifican para determinar una predicción final. Sin embargo, los métodos existentes presentan dos limitaciones. Primero, a menudo puntúan de manera inconsistente consultas SQL funcionalmente equivalentes, a pesar de tener resultados de ejecución idénticos. Segundo, la clasificación no puede recuperarse cuando la consulta SQL correcta está ausente del conjunto de candidatos. Proponemos R^3-SQL, un marco de Texto a SQL que aborda ambos problemas mediante una recompensa unificada para la clasificación y el remuestreo. R^3-SQL primero agrupa los candidatos por resultado de ejecución y clasifica los grupos para garantizar consistencia. Para puntuar cada grupo, combina una preferencia por pares entre grupos con una utilidad puntual derivada del rango y tamaño del mejor grupo, capturando preferencia relativa, consistencia y calidad del candidato. Para mejorar el recuerdo de candidatos, R^3-SQL introduce el remuestreo agentivo, que evalúa el conjunto de candidatos generado y remuestrea selectivamente cuando es probable que la consulta SQL correcta esté ausente. R^3-SQL alcanza una precisión de ejecución del 75.03% en BIRD-dev, un nuevo estado del arte entre los métodos que utilizan modelos con tamaños revelados, con mejoras consistentes en cinco puntos de referencia.
English
Modern Text-to-SQL systems generate multiple candidate SQL queries and rank them to judge a final prediction. However, existing methods face two limitations. First, they often score functionally equivalent SQL queries inconsistently despite identical execution results. Second, ranking cannot recover when the correct SQL is absent from the candidate pool. We propose R^3-SQL, a Text-to-SQL framework that addresses both issues through unified reward for ranking and resampling. R^3-SQL first groups candidates by execution result and ranks groups for consistency. To score each group, it combines a pairwise preference across groups with a pointwise utility from the best group rank and size, capturing relative preference, consistency, and candidate quality. To improve candidate recall, R^3-SQL introduces agentic resampling, which judges the generated candidate pool and selectively resamples when the correct SQL is likely absent. R^3-SQL achieves 75.03 execution accuracy on BIRD-dev, a new state of the art among methods using models with disclosed sizes, with consistent gains across five benchmarks.