Text2SQL ne suffit pas : Unifier l'IA et les bases de données avec TAG
Text2SQL is Not Enough: Unifying AI and Databases with TAG
August 27, 2024
Auteurs: Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia
cs.AI
Résumé
Les systèmes d'IA qui répondent aux questions en langage naturel sur les bases de données promettent de débloquer une valeur immense. De tels systèmes permettraient aux utilisateurs de tirer parti des capacités de raisonnement et de connaissance puissantes des modèles de langage (ML) ainsi que de la puissance de calcul évolutive des systèmes de gestion des données. Ces capacités combinées permettraient aux utilisateurs de poser des questions en langage naturel arbitraires sur des sources de données personnalisées. Cependant, les méthodes et les référentiels existants n'explorent pas suffisamment ce cadre. Les méthodes Text2SQL se concentrent uniquement sur les questions en langage naturel pouvant être exprimées en algèbre relationnelle, représentant un petit sous-ensemble des questions que les utilisateurs réels souhaitent poser. De même, le modèle Retrieval-Augmented Generation (RAG) ne prend en compte que le sous-ensemble limité des requêtes pouvant être répondues par des recherches ponctuelles dans un ou quelques enregistrements de données dans la base de données. Nous proposons le modèle Table-Augmented Generation (TAG), un paradigme unifié et polyvalent pour répondre aux questions en langage naturel sur les bases de données. Le modèle TAG représente une large gamme d'interactions entre le ML et la base de données qui n'ont pas été explorées auparavant et crée des opportunités de recherche passionnantes pour tirer parti des connaissances mondiales et des capacités de raisonnement des ML sur les données. Nous développons systématiquement des référentiels pour étudier le problème TAG et constatons que les méthodes standard ne répondent correctement à pas plus de 20 % des requêtes, confirmant ainsi la nécessité de poursuivre la recherche dans ce domaine. Nous mettons le code du référentiel à disposition sur https://github.com/TAG-Research/TAG-Bench.
English
AI systems that serve natural language questions over databases promise to
unlock tremendous value. Such systems would allow users to leverage the
powerful reasoning and knowledge capabilities of language models (LMs)
alongside the scalable computational power of data management systems. These
combined capabilities would empower users to ask arbitrary natural language
questions over custom data sources. However, existing methods and benchmarks
insufficiently explore this setting. Text2SQL methods focus solely on natural
language questions that can be expressed in relational algebra, representing a
small subset of the questions real users wish to ask. Likewise,
Retrieval-Augmented Generation (RAG) considers the limited subset of queries
that can be answered with point lookups to one or a few data records within the
database. We propose Table-Augmented Generation (TAG), a unified and
general-purpose paradigm for answering natural language questions over
databases. The TAG model represents a wide range of interactions between the LM
and database that have been previously unexplored and creates exciting research
opportunities for leveraging the world knowledge and reasoning capabilities of
LMs over data. We systematically develop benchmarks to study the TAG problem
and find that standard methods answer no more than 20% of queries correctly,
confirming the need for further research in this area. We release code for the
benchmark at https://github.com/TAG-Research/TAG-Bench.Summary
AI-Generated Summary