Costruzione di una Base di Conoscenza per Text-to-SQL Potenziato dalla Conoscenza
Knowledge Base Construction for Knowledge-Augmented Text-to-SQL
May 28, 2025
Autori: Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya
cs.AI
Abstract
Text-to-SQL mira a tradurre query in linguaggio naturale in istruzioni SQL, un'operazione pratica che consente a chiunque di recuperare facilmente le informazioni desiderate dai database. Recentemente, molti approcci esistenti affrontano questo problema utilizzando Large Language Models (LLM), sfruttando la loro forte capacità di comprendere le query degli utenti e generare il corrispondente codice SQL. Tuttavia, la conoscenza parametrica degli LLM potrebbe essere limitata nel coprire tutte le query diversificate e specifiche per dominio che richiedono un ancoraggio a vari schemi di database, rendendo spesso meno accurati gli SQL generati. Per risolvere questo problema, proponiamo la costruzione di una base di conoscenza per text-to-SQL, una fonte fondamentale di conoscenza da cui recuperiamo e generiamo le informazioni necessarie per le query specifiche. In particolare, a differenza degli approcci esistenti che annotano manualmente la conoscenza o generano solo poche informazioni per ogni query, la nostra base di conoscenza è completa, costruita sulla combinazione di tutte le domande disponibili e dei relativi schemi di database insieme alle loro conoscenze associate, e può essere riutilizzata per database non visti provenienti da diversi dataset e domini. Validiamo il nostro approccio su più dataset text-to-SQL, considerando sia scenari con database sovrapposti che non sovrapposti, dimostrando prestazioni sostanzialmente superiori rispetto alle baseline rilevanti.
English
Text-to-SQL aims to translate natural language queries into SQL statements,
which is practical as it enables anyone to easily retrieve the desired
information from databases. Recently, many existing approaches tackle this
problem with Large Language Models (LLMs), leveraging their strong capability
in understanding user queries and generating corresponding SQL code. Yet, the
parametric knowledge in LLMs might be limited to covering all the diverse and
domain-specific queries that require grounding in various database schemas,
which makes generated SQLs less accurate oftentimes. To tackle this, we propose
constructing the knowledge base for text-to-SQL, a foundational source of
knowledge, from which we retrieve and generate the necessary knowledge for
given queries. In particular, unlike existing approaches that either manually
annotate knowledge or generate only a few pieces of knowledge for each query,
our knowledge base is comprehensive, which is constructed based on a
combination of all the available questions and their associated database
schemas along with their relevant knowledge, and can be reused for unseen
databases from different datasets and domains. We validate our approach on
multiple text-to-SQL datasets, considering both the overlapping and
non-overlapping database scenarios, where it outperforms relevant baselines
substantially.