TRUST-SQL : Apprentissage par Renforcement Multi-Tour Intégrant des Outils pour Text-to-SQL sur des Schémas Inconnus

Résumé

L'analyse Text-to-SQL a réalisé des progrès remarquables sous l'hypothèse de Schéma Complet. Cependant, cette prémisse échoue dans les environnements d'entreprise réels où les bases de données contiennent des centaines de tables avec des métadonnées massives et bruitées. Plutôt que d'injecter le schéma complet d'emblée, un agent doit identifier et vérifier activement uniquement le sous-ensemble pertinent, donnant lieu au scénario de Schéma Inconnu que nous étudions dans ce travail. Pour y remédier, nous proposons TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). Nous formulons la tâche comme un Processus de Décision Markovien Partiellement Observable où notre agent autonome emploie un protocole structuré en quatre phases pour ancrer le raisonnement dans des métadonnées vérifiées. Ce protocole fournit crucialement une frontière structurelle pour notre nouvelle stratégie GRPO à Double Piste. En appliquant des avantages masqués au niveau des tokens, cette stratégie isole les récompenses d'exploration des résultats d'exécution pour résoudre le problème d'attribution du crédit, produisant une amélioration relative de 9,9 % par rapport au GRPO standard. Des expériences approfondies sur cinq benchmarks démontrent que TRUST-SQL atteint une amélioration absolue moyenne de 30,6 % et 16,6 % pour les variantes 4B et 8B respectivement par rapport à leurs modèles de base. Fait remarquable, bien qu'il fonctionne entièrement sans métadonnées préchargées, notre cadre égale ou dépasse systématiquement les bases de référence solides qui reposent sur le pré-remplissage du schéma.

English

Text-to-SQL parsing has achieved remarkable progress under the Full Schema Assumption. However, this premise fails in real-world enterprise environments where databases contain hundreds of tables with massive noisy metadata. Rather than injecting the full schema upfront, an agent must actively identify and verify only the relevant subset, giving rise to the Unknown Schema scenario we study in this work. To address this, we propose TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). We formulate the task as a Partially Observable Markov Decision Process where our autonomous agent employs a structured four-phase protocol to ground reasoning in verified metadata. Crucially, this protocol provides a structural boundary for our novel Dual-Track GRPO strategy. By applying token-level masked advantages, this strategy isolates exploration rewards from execution outcomes to resolve credit assignment, yielding a 9.9% relative improvement over standard GRPO. Extensive experiments across five benchmarks demonstrate that TRUST-SQL achieves an average absolute improvement of 30.6% and 16.6% for the 4B and 8B variants respectively over their base models. Remarkably, despite operating entirely without pre-loaded metadata, our framework consistently matches or surpasses strong baselines that rely on schema prefilling.

TRUST-SQL : Apprentissage par Renforcement Multi-Tour Intégrant des Outils pour Text-to-SQL sur des Schémas Inconnus

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Résumé

Support