Построение базы знаний для текстового SQL с расширенными знаниями
Knowledge Base Construction for Knowledge-Augmented Text-to-SQL
May 28, 2025
Авторы: Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya
cs.AI
Аннотация
Text-to-SQL ставит своей целью преобразование запросов на естественном языке в SQL-выражения, что является практичным, так как позволяет любому пользователю легко извлекать нужную информацию из баз данных. В последнее время многие существующие подходы решают эту задачу с использованием больших языковых моделей (LLM), используя их мощные возможности в понимании пользовательских запросов и генерации соответствующего SQL-кода. Однако параметрические знания в LLM могут быть ограничены в охвате всех разнообразных и специфичных для доменов запросов, которые требуют привязки к различным схемам баз данных, что зачастую делает сгенерированные SQL-запросы менее точными. Для решения этой проблемы мы предлагаем создать базу знаний для text-to-SQL, фундаментальный источник информации, из которого мы извлекаем и генерируем необходимые знания для заданных запросов. В частности, в отличие от существующих подходов, которые либо вручную аннотируют знания, либо генерируют лишь несколько фрагментов знаний для каждого запроса, наша база знаний является всеобъемлющей. Она строится на основе комбинации всех доступных вопросов, связанных с ними схем баз данных и соответствующей информации, и может быть повторно использована для неизвестных баз данных из различных наборов данных и доменов. Мы проверяем наш подход на нескольких наборах данных для text-to-SQL, учитывая как сценарии с перекрывающимися, так и неперекрывающимися базами данных, где он значительно превосходит соответствующие базовые методы.
English
Text-to-SQL aims to translate natural language queries into SQL statements,
which is practical as it enables anyone to easily retrieve the desired
information from databases. Recently, many existing approaches tackle this
problem with Large Language Models (LLMs), leveraging their strong capability
in understanding user queries and generating corresponding SQL code. Yet, the
parametric knowledge in LLMs might be limited to covering all the diverse and
domain-specific queries that require grounding in various database schemas,
which makes generated SQLs less accurate oftentimes. To tackle this, we propose
constructing the knowledge base for text-to-SQL, a foundational source of
knowledge, from which we retrieve and generate the necessary knowledge for
given queries. In particular, unlike existing approaches that either manually
annotate knowledge or generate only a few pieces of knowledge for each query,
our knowledge base is comprehensive, which is constructed based on a
combination of all the available questions and their associated database
schemas along with their relevant knowledge, and can be reused for unseen
databases from different datasets and domains. We validate our approach on
multiple text-to-SQL datasets, considering both the overlapping and
non-overlapping database scenarios, where it outperforms relevant baselines
substantially.Summary
AI-Generated Summary