SAFE-SQL: Aprendizado em Contexto Auto-Aumentado com Seleção de Exemplos de Granularidade Fina para Texto-para-SQL

Resumo

Text-to-SQL tem como objetivo converter perguntas em linguagem natural em consultas SQL executáveis. Embora abordagens anteriores, como a seleção mascarada de esqueletos, tenham demonstrado um desempenho forte ao recuperar exemplos de treinamento semelhantes para orientar modelos de linguagem de grande escala (LLMs), elas enfrentam dificuldades em cenários do mundo real onde tais exemplos não estão disponíveis. Para superar essa limitação, propomos o Aprendizado em Contexto com Auto-Aumento e Seleção de Exemplos de Texto para SQL (SAFE-SQL), uma nova estrutura que melhora a geração de SQL ao gerar e filtrar exemplos auto-aumentados. O SAFE-SQL primeiro solicita que um LLM gere múltiplos exemplos de Texto para SQL relevantes para a entrada de teste. Em seguida, o SAFE-SQL filtra esses exemplos por meio de três avaliações de relevância, construindo exemplos de aprendizado em contexto de alta qualidade. Ao utilizar exemplos auto-gerados, o SAFE-SQL supera as estruturas anteriores de Texto para SQL em cenários zero-shot e few-shot, alcançando maior precisão de execução. Notavelmente, nossa abordagem oferece ganhos adicionais de desempenho em cenários extremamente difíceis e inéditos, onde métodos convencionais frequentemente falham.

English

Text-to-SQL aims to convert natural language questions into executable SQL queries. While previous approaches, such as skeleton-masked selection, have demonstrated strong performance by retrieving similar training examples to guide large language models (LLMs), they struggle in real-world scenarios where such examples are unavailable. To overcome this limitation, we propose Self-Augmentation in-context learning with Fine-grained Example selection for Text-to-SQL (SAFE-SQL), a novel framework that improves SQL generation by generating and filtering self-augmented examples. SAFE-SQL first prompts an LLM to generate multiple Text-to-SQL examples relevant to the test input. Then SAFE-SQL filters these examples through three relevance assessments, constructing high-quality in-context learning examples. Using self-generated examples, SAFE-SQL surpasses the previous zero-shot, and few-shot Text-to-SQL frameworks, achieving higher execution accuracy. Notably, our approach provides additional performance gains in extra hard and unseen scenarios, where conventional methods often fail.

SAFE-SQL: Aprendizado em Contexto Auto-Aumentado com Seleção de Exemplos de Granularidade Fina para Texto-para-SQL

SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL

Resumo

Support