R^3-SQL: Ранжирование вознаграждений и ресемплирование для Text-to-SQL
R^3-SQL: Ranking Reward and Resampling for Text-to-SQL
April 28, 2026
Авторы: Hojae Han, Yeonseok Jeong, Seung-won Hwang, Zhewei Yao, Yuxiong He
cs.AI
Аннотация
Современные Text-to-SQL системы генерируют несколько кандидатов в SQL-запросы и ранжируют их для выбора окончательного предсказания. Однако существующие методы сталкиваются с двумя ограничениями. Во-первых, они часто непоследовательно оценивают функционально эквивалентные SQL-запросы, несмотря на идентичные результаты выполнения. Во-вторых, ранжирование не может восстановить ситуацию, когда правильный SQL отсутствует в пуле кандидатов. Мы предлагаем R³-SQL — фреймворк Text-to-SQL, который решает обе проблемы с помощью единого вознаграждения за ранжирование и повторную выборку. R³-SQL сначала группирует кандидатов по результатам выполнения, а затем ранжирует группы для обеспечения согласованности. Для оценки каждой группы он комбинирует парное предпочтение между группами с поточечной полезностью, определяемой рангом и размером лучшей группы, что позволяет учесть относительное предпочтение, согласованность и качество кандидатов. Для повышения полноты набора кандидатов R³-SQL вводит агентную повторную выборку: он оценивает сгенерированный пул кандидатов и выборочно пересоздаёт выборку, если правильный SQL, вероятно, отсутствует. R³-SQL достигает точности выполнения 75,03 на BIRD-dev, что является новым современным показателем среди методов, использующих модели с раскрытыми размерами, с устойчивым приростом на пяти эталонных наборах данных.
English
Modern Text-to-SQL systems generate multiple candidate SQL queries and rank them to judge a final prediction. However, existing methods face two limitations. First, they often score functionally equivalent SQL queries inconsistently despite identical execution results. Second, ranking cannot recover when the correct SQL is absent from the candidate pool. We propose R^3-SQL, a Text-to-SQL framework that addresses both issues through unified reward for ranking and resampling. R^3-SQL first groups candidates by execution result and ranks groups for consistency. To score each group, it combines a pairwise preference across groups with a pointwise utility from the best group rank and size, capturing relative preference, consistency, and candidate quality. To improve candidate recall, R^3-SQL introduces agentic resampling, which judges the generated candidate pool and selectively resamples when the correct SQL is likely absent. R^3-SQL achieves 75.03 execution accuracy on BIRD-dev, a new state of the art among methods using models with disclosed sizes, with consistent gains across five benchmarks.