R^3-SQL: Ranking, Reward en Resampling voor tekst-naar-SQL

Samenvatting

Moderne Text-to-SQL-systemen genereren meerdere kandidaat-SQL-query's en rangschikken deze om een definitieve voorspelling te beoordelen. Bestaande methoden kennen echter twee beperkingen. Ten eerste beoordelen ze functioneel equivalente SQL-query's vaak inconsistent, ondanks identieke uitvoeringsresultaten. Ten tweede kan rangschikking niet herstellen wanneer de juiste SQL ontbreekt in de kandidaatpool. We stellen R^3-SQL voor, een Text-to-SQL-raamwerk dat beide problemen aanpakt via een uniforme beloning voor rangschikking en hersteekproef. R^3-SQL groepeert eerst kandidaten per uitvoeringsresultaat en rangschikt groepen op consistentie. Om elke groep te scoren, combineert het een paarsgewijze voorkeur tussen groepen met een puntsgewijs nut van de beste groepsrang en -grootte, waarbij relatieve voorkeur, consistentie en kandidaatkwaliteit worden vastgelegd. Om de kandidaatrecall te verbeteren, introduceert R^3-SQL agentische hersteekproef, die de gegenereerde kandidaatpool beoordeelt en selectief opnieuw bemonstert wanneer de juiste SQL waarschijnlijk ontbreekt. R^3-SQL behaalt 75,03 uitvoeringsnauwkeurigheid op BIRD-dev, een nieuwe state-of-the-art onder methoden die modellen met bekendgemaakte omvang gebruiken, met consistente verbeteringen over vijf benchmarks.

English

Modern Text-to-SQL systems generate multiple candidate SQL queries and rank them to judge a final prediction. However, existing methods face two limitations. First, they often score functionally equivalent SQL queries inconsistently despite identical execution results. Second, ranking cannot recover when the correct SQL is absent from the candidate pool. We propose R^3-SQL, a Text-to-SQL framework that addresses both issues through unified reward for ranking and resampling. R^3-SQL first groups candidates by execution result and ranks groups for consistency. To score each group, it combines a pairwise preference across groups with a pointwise utility from the best group rank and size, capturing relative preference, consistency, and candidate quality. To improve candidate recall, R^3-SQL introduces agentic resampling, which judges the generated candidate pool and selectively resamples when the correct SQL is likely absent. R^3-SQL achieves 75.03 execution accuracy on BIRD-dev, a new state of the art among methods using models with disclosed sizes, with consistent gains across five benchmarks.

R^3-SQL: Ranking, Reward en Resampling voor tekst-naar-SQL

R^3-SQL: Ranking Reward and Resampling for Text-to-SQL

Samenvatting

Support