SAFE-SQL: Aprendizado em Contexto Auto-Aumentado com Seleção de Exemplos de Granularidade Fina para Texto-para-SQL
SAFE-SQL: Self-Augmented In-Context Learning with Fine-grained Example Selection for Text-to-SQL
February 17, 2025
Autores: Jimin Lee, Ingeol Baek, Byeongjeong Kim, Hwanhee Lee
cs.AI
Resumo
Text-to-SQL tem como objetivo converter perguntas em linguagem natural em consultas SQL executáveis. Embora abordagens anteriores, como a seleção mascarada de esqueletos, tenham demonstrado um desempenho forte ao recuperar exemplos de treinamento semelhantes para orientar modelos de linguagem de grande escala (LLMs), elas enfrentam dificuldades em cenários do mundo real onde tais exemplos não estão disponíveis. Para superar essa limitação, propomos o Aprendizado em Contexto com Auto-Aumento e Seleção de Exemplos de Texto para SQL (SAFE-SQL), uma nova estrutura que melhora a geração de SQL ao gerar e filtrar exemplos auto-aumentados. O SAFE-SQL primeiro solicita que um LLM gere múltiplos exemplos de Texto para SQL relevantes para a entrada de teste. Em seguida, o SAFE-SQL filtra esses exemplos por meio de três avaliações de relevância, construindo exemplos de aprendizado em contexto de alta qualidade. Ao utilizar exemplos auto-gerados, o SAFE-SQL supera as estruturas anteriores de Texto para SQL em cenários zero-shot e few-shot, alcançando maior precisão de execução. Notavelmente, nossa abordagem oferece ganhos adicionais de desempenho em cenários extremamente difíceis e inéditos, onde métodos convencionais frequentemente falham.
English
Text-to-SQL aims to convert natural language questions into executable SQL
queries. While previous approaches, such as skeleton-masked selection, have
demonstrated strong performance by retrieving similar training examples to
guide large language models (LLMs), they struggle in real-world scenarios where
such examples are unavailable. To overcome this limitation, we propose
Self-Augmentation in-context learning with Fine-grained Example selection for
Text-to-SQL (SAFE-SQL), a novel framework that improves SQL generation by
generating and filtering self-augmented examples. SAFE-SQL first prompts an LLM
to generate multiple Text-to-SQL examples relevant to the test input. Then
SAFE-SQL filters these examples through three relevance assessments,
constructing high-quality in-context learning examples. Using self-generated
examples, SAFE-SQL surpasses the previous zero-shot, and few-shot Text-to-SQL
frameworks, achieving higher execution accuracy. Notably, our approach provides
additional performance gains in extra hard and unseen scenarios, where
conventional methods often fail.Summary
AI-Generated Summary