TRUST-SQL: Интегрированное многопроходное обучение с подкреплением для преобразования текста в SQL-запросы с неизвестными схемами
TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas
March 17, 2026
Авторы: Ai Jian, Xiaoyun Zhang, Wanrou Du, Jingqing Ruan, Jiangbo Pei, Weipeng Zhang, Ke Zeng, Xunliang Cai
cs.AI
Аннотация
Парсинг Text-to-SQL достиг значительного прогресса в условиях предположения о полной схеме (Full Schema Assumption). Однако в реальных корпоративных средах это предположение не выполняется, поскольку базы данных содержат сотни таблиц с обширными зашумленными метаданными. Вместо того чтобы заранее загружать полную схему, агент должен активно выявлять и проверять только релевантное подмножество, что порождает сценарий Неизвестной Схемы (Unknown Schema), изучаемый в данной работе. Для решения этой задачи мы предлагаем TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). Мы формулируем задачу как частично наблюдаемый марковский процесс принятия решений (POMDP), в котором наш автономный агент использует структурированный четырехфазный протокол для обоснования рассуждений проверенными метаданными. Ключевым моментом является то, что этот протокол обеспечивает структурную границу для нашей новой стратегии Dual-Track GRPO. Применяя маскированные преимущества на уровне токенов, эта стратегия изолирует вознаграждения за исследование от результатов выполнения, чтобы решить проблему распределения заслуг, что дает относительное улучшение на 9.9% по сравнению со стандартным GRPO. Многочисленные эксперименты на пяти бенчмарках показывают, что TRUST-SQL достигает среднего абсолютного улучшения на 30.6% и 16.6% для вариантов на 4B и 8B параметров соответственно по сравнению с их базовыми моделями. Примечательно, что, несмотря на полное отсутствие предзагруженных метаданных, наша система стабильно соответствует или превосходит сильные базовые методы, полагающиеся на предварительное заполнение схемы.
English
Text-to-SQL parsing has achieved remarkable progress under the Full Schema Assumption. However, this premise fails in real-world enterprise environments where databases contain hundreds of tables with massive noisy metadata. Rather than injecting the full schema upfront, an agent must actively identify and verify only the relevant subset, giving rise to the Unknown Schema scenario we study in this work. To address this, we propose TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). We formulate the task as a Partially Observable Markov Decision Process where our autonomous agent employs a structured four-phase protocol to ground reasoning in verified metadata. Crucially, this protocol provides a structural boundary for our novel Dual-Track GRPO strategy. By applying token-level masked advantages, this strategy isolates exploration rewards from execution outcomes to resolve credit assignment, yielding a 9.9% relative improvement over standard GRPO. Extensive experiments across five benchmarks demonstrate that TRUST-SQL achieves an average absolute improvement of 30.6% and 16.6% for the 4B and 8B variants respectively over their base models. Remarkably, despite operating entirely without pre-loaded metadata, our framework consistently matches or surpasses strong baselines that rely on schema prefilling.