R^3-SQL: Ranking Reward und Resampling für Text-zu-SQL

Zusammenfassung

Moderne Text-to-SQL-Systeme generieren mehrere Kandidaten-SQL-Abfragen und ordnen sie, um eine endgültige Vorhersage zu treffen. Bestehende Methoden haben jedoch zwei Einschränkungen. Erstens bewerten sie funktional äquivalente SQL-Abfragen trotz identischer Ausführungsergebnisse oft inkonsistent. Zweitens kann die Rangfolge nicht wiederhergestellt werden, wenn das korrekte SQL nicht im Kandidatenpool enthalten ist. Wir stellen R^3-SQL vor, ein Text-to-SQL-Framework, das beide Probleme durch eine einheitliche Belohnung für Ranking und Resampling angeht. R^3-SQL gruppiert zunächst Kandidaten nach ihrem Ausführungsergebnis und ordnet die Gruppen zur Konsistenzsicherung. Zur Bewertung jeder Gruppe kombiniert es eine paarweise Präferenz zwischen Gruppen mit einem punktweisen Nutzen aus dem besten Gruppenrang und der Gruppengröße, wobei relative Präferenz, Konsistenz und Kandidatenqualität erfasst werden. Um die Kandidatentrefferquote zu verbessern, führt R^3-SQL ein agentenbasiertes Resampling ein, das den generierten Kandidatenpool bewertet und selektiv neu abtastet, wenn das korrekte SQL wahrscheinlich fehlt. R^3-SQL erreicht eine Ausführungsgenauigkeit von 75.03 auf BIRD-dev, einen neuen Stand der Technik unter Methoden, die Modelle mit offengelegten Größen verwenden, mit durchgängigen Verbesserungen über fünf Benchmarks hinweg.

English

Modern Text-to-SQL systems generate multiple candidate SQL queries and rank them to judge a final prediction. However, existing methods face two limitations. First, they often score functionally equivalent SQL queries inconsistently despite identical execution results. Second, ranking cannot recover when the correct SQL is absent from the candidate pool. We propose R^3-SQL, a Text-to-SQL framework that addresses both issues through unified reward for ranking and resampling. R^3-SQL first groups candidates by execution result and ranks groups for consistency. To score each group, it combines a pairwise preference across groups with a pointwise utility from the best group rank and size, capturing relative preference, consistency, and candidate quality. To improve candidate recall, R^3-SQL introduces agentic resampling, which judges the generated candidate pool and selectively resamples when the correct SQL is likely absent. R^3-SQL achieves 75.03 execution accuracy on BIRD-dev, a new state of the art among methods using models with disclosed sizes, with consistent gains across five benchmarks.