ChatPaper.aiChatPaper

Wissensbasis-Konstruktion für wissensgestütztes Text-zu-SQL

Knowledge Base Construction for Knowledge-Augmented Text-to-SQL

May 28, 2025
Autoren: Jinheon Baek, Horst Samulowitz, Oktie Hassanzadeh, Dharmashankar Subramanian, Sola Shirai, Alfio Gliozzo, Debarun Bhattacharjya
cs.AI

Zusammenfassung

Text-to-SQL zielt darauf ab, natürlichsprachige Anfragen in SQL-Anweisungen zu übersetzen, was praktisch ist, da es jedem ermöglicht, gewünschte Informationen einfach aus Datenbanken abzurufen. In jüngster Zeit behandeln viele bestehende Ansätze dieses Problem mit Large Language Models (LLMs), indem sie deren starke Fähigkeit nutzen, Benutzeranfragen zu verstehen und entsprechende SQL-Codes zu generieren. Dennoch könnte das parametrische Wissen in LLMs begrenzt sein, um alle vielfältigen und domänenspezifischen Anfragen abzudecken, die eine Verankerung in verschiedenen Datenbankschemata erfordern, was generierte SQL-Anweisungen oft weniger genau macht. Um dies zu bewältigen, schlagen wir vor, eine Wissensbasis für Text-to-SQL zu erstellen, eine grundlegende Wissensquelle, aus der wir das notwendige Wissen für gegebene Anfragen abrufen und generieren. Insbesondere ist unsere Wissensbasis, im Gegensatz zu bestehenden Ansätzen, die entweder manuell Wissen annotieren oder nur wenige Wissenselemente pro Anfrage generieren, umfassend. Sie basiert auf einer Kombination aller verfügbaren Fragen und ihrer zugehörigen Datenbankschemata sowie ihrem relevanten Wissen und kann für unbekannte Datenbanken aus verschiedenen Datensätzen und Domänen wiederverwendet werden. Wir validieren unseren Ansatz auf mehreren Text-to-SQL-Datensätzen, wobei sowohl überlappende als auch nicht überlappende Datenbankszenarien berücksichtigt werden, und zeigen, dass er relevante Baselines erheblich übertrifft.
English
Text-to-SQL aims to translate natural language queries into SQL statements, which is practical as it enables anyone to easily retrieve the desired information from databases. Recently, many existing approaches tackle this problem with Large Language Models (LLMs), leveraging their strong capability in understanding user queries and generating corresponding SQL code. Yet, the parametric knowledge in LLMs might be limited to covering all the diverse and domain-specific queries that require grounding in various database schemas, which makes generated SQLs less accurate oftentimes. To tackle this, we propose constructing the knowledge base for text-to-SQL, a foundational source of knowledge, from which we retrieve and generate the necessary knowledge for given queries. In particular, unlike existing approaches that either manually annotate knowledge or generate only a few pieces of knowledge for each query, our knowledge base is comprehensive, which is constructed based on a combination of all the available questions and their associated database schemas along with their relevant knowledge, and can be reused for unseen databases from different datasets and domains. We validate our approach on multiple text-to-SQL datasets, considering both the overlapping and non-overlapping database scenarios, where it outperforms relevant baselines substantially.

Summary

AI-Generated Summary

PDF11May 29, 2025