R^3-SQL : Récompense de classement et rééchantillonnage pour Text-to-SQL

Résumé

Les systèmes modernes de Text-to-SQL génèrent plusieurs requêtes SQL candidates et les classent pour déterminer une prédiction finale. Cependant, les méthodes existantes présentent deux limites. Premièrement, elles attribuent souvent des scores incohérents à des requêtes SQL fonctionnellement équivalentes, malgré des résultats d'exécution identiques. Deuxièmement, le classement ne peut pas récupérer une prédiction correcte lorsque celle-ci est absente de l'ensemble des candidats. Nous proposons R³-SQL, un cadre Text-to-SQL qui résout ces deux problèmes grâce à une récompense unifiée pour le classement et le rééchantillonnage. R³-SQL regroupe d'abord les candidats par résultat d'exécution et classe ces groupes pour assurer la cohérence. Pour évaluer chaque groupe, il combine une préférence par paires entre groupes avec une utilité ponctuelle issue du rang et de la taille du meilleur groupe, capturant ainsi la préférence relative, la cohérence et la qualité des candidats. Pour améliorer le rappel des candidats, R³-SQL introduit un rééchantillonnage agentique, qui juge l'ensemble des candidats générés et effectue un rééchantillonnage sélectif lorsque la requête SQL correcte est probablement absente. R³-SQL atteint une précision d'exécution de 75,03 % sur BIRD-dev, établissant un nouvel état de l'art parmi les méthodes utilisant des modèles dont la taille est divulguée, avec des gains constants sur cinq benchmarks.

English

Modern Text-to-SQL systems generate multiple candidate SQL queries and rank them to judge a final prediction. However, existing methods face two limitations. First, they often score functionally equivalent SQL queries inconsistently despite identical execution results. Second, ranking cannot recover when the correct SQL is absent from the candidate pool. We propose R^3-SQL, a Text-to-SQL framework that addresses both issues through unified reward for ranking and resampling. R^3-SQL first groups candidates by execution result and ranks groups for consistency. To score each group, it combines a pairwise preference across groups with a pointwise utility from the best group rank and size, capturing relative preference, consistency, and candidate quality. To improve candidate recall, R^3-SQL introduces agentic resampling, which judges the generated candidate pool and selectively resamples when the correct SQL is likely absent. R^3-SQL achieves 75.03 execution accuracy on BIRD-dev, a new state of the art among methods using models with disclosed sizes, with consistent gains across five benchmarks.

R^3-SQL : Récompense de classement et rééchantillonnage pour Text-to-SQL

R^3-SQL: Ranking Reward and Resampling for Text-to-SQL

Résumé

Support