TRUST-SQL: Tool-integriertes Multi-Turn Reinforcement Learning für Text-to-SQL bei unbekannten Schemata

Zusammenfassung

Die Text-zu-SQL-Analyse hat unter der Annahme eines vollständigen Schemas bemerkenswerte Fortschritte erzielt. Diese Prämisse gilt jedoch nicht in realen Unternehmensumgebungen, in denen Datenbanken Hunderte von Tabellen mit umfangreichen verrauschten Metadaten enthalten. Anstatt das vollständige Schema von vornherein einzuspielen, muss ein Agent aktiv nur die relevante Teilmenge identifizieren und verifizieren, was zum unbekannten Schema-Szenario führt, das wir in dieser Arbeit untersuchen. Um dies zu adressieren, schlagen wir TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools) vor. Wir formulieren die Aufgabe als teilweise beobachtbaren Markov-Entscheidungsprozess, in dem unser autonomer Agent ein strukturiertes Vier-Phasen-Protokoll anwendet, um die Abfragelogik in verifizierten Metadaten zu verankern. Entscheidend ist, dass dieses Protokoll eine strukturelle Grenze für unsere neuartige Dual-Track-GRPO-Strategie bildet. Durch die Anwendung tokenmaskierter Vorteile auf Token-Ebene isoliert diese Strategie Explorationsbelohnungen von Ausführungsergebnissen, um die Kreditzuweisung zu lösen, was eine relative Verbesserung von 9,9 % gegenüber Standard-GRPO erzielt. Umfangreiche Experimente über fünf Benchmarks zeigen, dass TRUST-SQL eine durchschnittliche absolute Verbesserung von 30,6 % bzw. 16,6 % für die 4B- und 8B-Varianten gegenüber ihren Basismodellen erreicht. Bemerkenswerterweise übertrifft unser Framework trotz des vollständigen Verzichts auf vorab geladene Metadaten konsistent starke Baseline-Modelle, die auf Schema-Vorausfüllung angewiesen sind.

English

Text-to-SQL parsing has achieved remarkable progress under the Full Schema Assumption. However, this premise fails in real-world enterprise environments where databases contain hundreds of tables with massive noisy metadata. Rather than injecting the full schema upfront, an agent must actively identify and verify only the relevant subset, giving rise to the Unknown Schema scenario we study in this work. To address this, we propose TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). We formulate the task as a Partially Observable Markov Decision Process where our autonomous agent employs a structured four-phase protocol to ground reasoning in verified metadata. Crucially, this protocol provides a structural boundary for our novel Dual-Track GRPO strategy. By applying token-level masked advantages, this strategy isolates exploration rewards from execution outcomes to resolve credit assignment, yielding a 9.9% relative improvement over standard GRPO. Extensive experiments across five benchmarks demonstrate that TRUST-SQL achieves an average absolute improvement of 30.6% and 16.6% for the 4B and 8B variants respectively over their base models. Remarkably, despite operating entirely without pre-loaded metadata, our framework consistently matches or surpasses strong baselines that rely on schema prefilling.

TRUST-SQL: Tool-integriertes Multi-Turn Reinforcement Learning für Text-to-SQL bei unbekannten Schemata

TRUST-SQL: Tool-Integrated Multi-Turn Reinforcement Learning for Text-to-SQL over Unknown Schemas

Zusammenfassung

Support