Construcción de Bases de Conocimiento para Text-to-SQL Aumentado con Conocimiento
Knowledge Base Construction for Knowledge-Augmented Text-to-SQL
May 28, 2025
Autores: Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya
cs.AI
Resumen
Text-to-SQL tiene como objetivo traducir consultas en lenguaje natural a sentencias SQL, lo cual es práctico ya que permite a cualquier persona recuperar fácilmente la información deseada de las bases de datos. Recientemente, muchos enfoques existentes abordan este problema utilizando Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés), aprovechando su fuerte capacidad para comprender las consultas de los usuarios y generar el código SQL correspondiente. Sin embargo, el conocimiento paramétrico en los LLMs podría ser limitado para cubrir todas las consultas diversas y específicas de dominio que requieren estar fundamentadas en diversos esquemas de bases de datos, lo que hace que los SQL generados sean menos precisos en muchas ocasiones. Para abordar esto, proponemos construir una base de conocimiento para text-to-SQL, una fuente fundamental de conocimiento, desde la cual recuperamos y generamos el conocimiento necesario para las consultas dadas. En particular, a diferencia de los enfoques existentes que ya sea anotan manualmente el conocimiento o generan solo algunas piezas de conocimiento para cada consulta, nuestra base de conocimiento es integral, ya que se construye a partir de una combinación de todas las preguntas disponibles y sus esquemas de bases de datos asociados, junto con su conocimiento relevante, y puede reutilizarse para bases de datos no vistas de diferentes conjuntos de datos y dominios. Validamos nuestro enfoque en múltiples conjuntos de datos de text-to-SQL, considerando tanto escenarios de bases de datos superpuestas como no superpuestas, donde supera sustancialmente a las líneas base relevantes.
English
Text-to-SQL aims to translate natural language queries into SQL statements,
which is practical as it enables anyone to easily retrieve the desired
information from databases. Recently, many existing approaches tackle this
problem with Large Language Models (LLMs), leveraging their strong capability
in understanding user queries and generating corresponding SQL code. Yet, the
parametric knowledge in LLMs might be limited to covering all the diverse and
domain-specific queries that require grounding in various database schemas,
which makes generated SQLs less accurate oftentimes. To tackle this, we propose
constructing the knowledge base for text-to-SQL, a foundational source of
knowledge, from which we retrieve and generate the necessary knowledge for
given queries. In particular, unlike existing approaches that either manually
annotate knowledge or generate only a few pieces of knowledge for each query,
our knowledge base is comprehensive, which is constructed based on a
combination of all the available questions and their associated database
schemas along with their relevant knowledge, and can be reused for unseen
databases from different datasets and domains. We validate our approach on
multiple text-to-SQL datasets, considering both the overlapping and
non-overlapping database scenarios, where it outperforms relevant baselines
substantially.Summary
AI-Generated Summary