TRUST-SQL: Aprendizado por Reforço Multi-Turn Integrado a Ferramentas para Text-to-SQL sobre Esquemas Desconhecidos

Resumo

A análise Text-to-SQL alcançou progressos notáveis sob a Premissa de Esquema Completo. No entanto, essa premissa falha em ambientes empresariais reais, onde as bases de dados contêm centenas de tabelas com metadados massivos e ruidosos. Em vez de injetar o esquema completo antecipadamente, um agente deve identificar e verificar ativamente apenas o subconjunto relevante, dando origem ao cenário de Esquema Desconhecido que estudamos neste trabalho. Para resolver isso, propomos o TRUST-SQL (Raciocínio Verídico com Esquema Desconhecido via Ferramentas). Formulamos a tarefa como um Processo de Decisão Markoviano Parcialmente Observável, onde nosso agente autónomo emprega um protocolo estruturado de quatro fases para fundamentar o raciocínio em metadados verificados. Crucialmente, este protocolo fornece um limite estrutural para a nossa nova estratégia GRPO de Dupla Via. Ao aplicar vantagens mascaradas a nível de token, esta estratégia isola as recompensas de exploração dos resultados de execução para resolver a atribuição de crédito, resultando numa melhoria relativa de 9,9% em relação ao GRPO padrão. Experiências extensas em cinco benchmarks demonstram que o TRUST-SQL alcança uma melhoria absoluta média de 30,6% e 16,6% para as variantes de 4B e 8B, respetivamente, em relação aos seus modelos base. Notavelmente, apesar de operar totalmente sem metadados pré-carregados, a nossa estrutura consistentemente iguala ou supera linhas de base fortes que dependem do pré-preenchimento de esquemas.

English

Text-to-SQL parsing has achieved remarkable progress under the Full Schema Assumption. However, this premise fails in real-world enterprise environments where databases contain hundreds of tables with massive noisy metadata. Rather than injecting the full schema upfront, an agent must actively identify and verify only the relevant subset, giving rise to the Unknown Schema scenario we study in this work. To address this, we propose TRUST-SQL (Truthful Reasoning with Unknown Schema via Tools). We formulate the task as a Partially Observable Markov Decision Process where our autonomous agent employs a structured four-phase protocol to ground reasoning in verified metadata. Crucially, this protocol provides a structural boundary for our novel Dual-Track GRPO strategy. By applying token-level masked advantages, this strategy isolates exploration rewards from execution outcomes to resolve credit assignment, yielding a 9.9% relative improvement over standard GRPO. Extensive experiments across five benchmarks demonstrate that TRUST-SQL achieves an average absolute improvement of 30.6% and 16.6% for the 4B and 8B variants respectively over their base models. Remarkably, despite operating entirely without pre-loaded metadata, our framework consistently matches or surpasses strong baselines that rely on schema prefilling.