ChatPaper.aiChatPaper

Text2SQL is niet voldoende: AI en databases verenigen met TAG

Text2SQL is Not Enough: Unifying AI and Databases with TAG

August 27, 2024
Auteurs: Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia
cs.AI

Samenvatting

AI-systemen die natuurlijke taalvragen over databases bedienen, beloven enorme waarde te ontsluiten. Dergelijke systemen zouden gebruikers in staat stellen om de krachtige redeneer- en kennisvaardigheden van taalmodelen (LMs) te combineren met de schaalbare rekenkracht van gegevensbeheersystemen. Deze gecombineerde mogelijkheden zouden gebruikers in staat stellen om willekeurige natuurlijke taalvragen te stellen over aangepaste gegevensbronnen. Bestaande methoden en benchmarks onderzoeken deze setting echter onvoldoende. Text2SQL-methoden richten zich uitsluitend op natuurlijke taalvragen die kunnen worden uitgedrukt in relationele algebra, wat slechts een kleine subset vertegenwoordigt van de vragen die echte gebruikers willen stellen. Evenzo beschouwt Retrieval-Augmented Generation (RAG) de beperkte subset van queries die kunnen worden beantwoord met puntzoekopdrachten naar één of enkele gegevensrecords binnen de database. Wij stellen Table-Augmented Generation (TAG) voor, een uniform en algemeen toepasbaar paradigma voor het beantwoorden van natuurlijke taalvragen over databases. Het TAG-model vertegenwoordigt een breed scala aan interacties tussen het LM en de database die voorheen niet zijn onderzocht en creëert spannende onderzoeksmogelijkheden om de wereldkennis en redeneervaardigheden van LMs over gegevens te benutten. We ontwikkelen systematisch benchmarks om het TAG-probleem te bestuderen en ontdekken dat standaardmethoden niet meer dan 20% van de queries correct beantwoorden, wat de noodzaak van verder onderzoek op dit gebied bevestigt. We geven code voor de benchmark vrij op https://github.com/TAG-Research/TAG-Bench.
English
AI systems that serve natural language questions over databases promise to unlock tremendous value. Such systems would allow users to leverage the powerful reasoning and knowledge capabilities of language models (LMs) alongside the scalable computational power of data management systems. These combined capabilities would empower users to ask arbitrary natural language questions over custom data sources. However, existing methods and benchmarks insufficiently explore this setting. Text2SQL methods focus solely on natural language questions that can be expressed in relational algebra, representing a small subset of the questions real users wish to ask. Likewise, Retrieval-Augmented Generation (RAG) considers the limited subset of queries that can be answered with point lookups to one or a few data records within the database. We propose Table-Augmented Generation (TAG), a unified and general-purpose paradigm for answering natural language questions over databases. The TAG model represents a wide range of interactions between the LM and database that have been previously unexplored and creates exciting research opportunities for leveraging the world knowledge and reasoning capabilities of LMs over data. We systematically develop benchmarks to study the TAG problem and find that standard methods answer no more than 20% of queries correctly, confirming the need for further research in this area. We release code for the benchmark at https://github.com/TAG-Research/TAG-Bench.

Summary

AI-Generated Summary

PDF272November 16, 2024