ChatPaper.aiChatPaper

Construction de bases de connaissances pour le Text-to-SQL enrichi par des connaissances

Knowledge Base Construction for Knowledge-Augmented Text-to-SQL

May 28, 2025
Auteurs: Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya
cs.AI

Résumé

Text-to-SQL vise à traduire des requêtes en langage naturel en instructions SQL, ce qui est pratique car cela permet à quiconque de récupérer facilement les informations souhaitées à partir de bases de données. Récemment, de nombreuses approches existantes abordent ce problème en utilisant des modèles de langage de grande taille (LLMs), en exploitant leur forte capacité à comprendre les requêtes des utilisateurs et à générer le code SQL correspondant. Cependant, les connaissances paramétriques des LLMs pourraient être limitées pour couvrir toutes les requêtes diversifiées et spécifiques à un domaine qui nécessitent un ancrage dans différents schémas de bases de données, ce qui rend souvent les SQL générés moins précis. Pour résoudre ce problème, nous proposons de construire une base de connaissances pour text-to-SQL, une source fondamentale de connaissances, à partir de laquelle nous récupérons et générons les connaissances nécessaires pour les requêtes données. En particulier, contrairement aux approches existantes qui annotent manuellement les connaissances ou ne génèrent que quelques éléments de connaissances pour chaque requête, notre base de connaissances est exhaustive. Elle est construite sur la base d'une combinaison de toutes les questions disponibles et de leurs schémas de bases de données associés, ainsi que de leurs connaissances pertinentes, et peut être réutilisée pour des bases de données non vues provenant de différents ensembles de données et domaines. Nous validons notre approche sur plusieurs ensembles de données text-to-SQL, en considérant à la fois les scénarios de bases de données chevauchantes et non chevauchantes, où elle surpasse substantiellement les bases de référence pertinentes.
English
Text-to-SQL aims to translate natural language queries into SQL statements, which is practical as it enables anyone to easily retrieve the desired information from databases. Recently, many existing approaches tackle this problem with Large Language Models (LLMs), leveraging their strong capability in understanding user queries and generating corresponding SQL code. Yet, the parametric knowledge in LLMs might be limited to covering all the diverse and domain-specific queries that require grounding in various database schemas, which makes generated SQLs less accurate oftentimes. To tackle this, we propose constructing the knowledge base for text-to-SQL, a foundational source of knowledge, from which we retrieve and generate the necessary knowledge for given queries. In particular, unlike existing approaches that either manually annotate knowledge or generate only a few pieces of knowledge for each query, our knowledge base is comprehensive, which is constructed based on a combination of all the available questions and their associated database schemas along with their relevant knowledge, and can be reused for unseen databases from different datasets and domains. We validate our approach on multiple text-to-SQL datasets, considering both the overlapping and non-overlapping database scenarios, where it outperforms relevant baselines substantially.

Summary

AI-Generated Summary

PDF11May 29, 2025