ChatPaper.aiChatPaper

Text2SQL reicht nicht aus: Vereinigung von KI und Datenbanken mit TAG.

Text2SQL is Not Enough: Unifying AI and Databases with TAG

August 27, 2024
Autoren: Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia
cs.AI

Zusammenfassung

KI-Systeme, die natürlichsprachliche Fragen über Datenbanken beantworten, versprechen enormen Mehrwert zu schaffen. Solche Systeme würden es Benutzern ermöglichen, die leistungsstarken Argumentations- und Wissensfähigkeiten von Sprachmodellen (LMs) neben der skalierbaren Rechenleistung von Datenverwaltungssystemen zu nutzen. Diese kombinierten Fähigkeiten würden Benutzer befähigen, beliebige natürlichsprachliche Fragen über benutzerdefinierte Datenquellen zu stellen. Allerdings erforschen bestehende Methoden und Benchmarks dieses Szenario unzureichend. Text2SQL-Methoden konzentrieren sich ausschließlich auf natürlichsprachliche Fragen, die in relationaler Algebra ausgedrückt werden können, was nur eine kleine Teilmenge der Fragen darstellt, die echte Benutzer stellen möchten. Ebenso berücksichtigt das Retrieval-Augmented Generation (RAG) nur die begrenzte Teilmenge von Abfragen, die mit Punktlookups zu einem oder wenigen Datensätzen in der Datenbank beantwortet werden können. Wir schlagen Table-Augmented Generation (TAG) vor, ein vereinheitlichtes und allgemeines Paradigma zur Beantwortung natürlichsprachlicher Fragen über Datenbanken. Das TAG-Modell repräsentiert eine breite Palette von Interaktionen zwischen dem LM und der Datenbank, die zuvor unerforscht waren, und schafft spannende Forschungsmöglichkeiten, um das Weltwissen und die Argumentationsfähigkeiten von LMs über Daten zu nutzen. Wir entwickeln systematisch Benchmarks, um das TAG-Problem zu untersuchen, und stellen fest, dass Standardmethoden nicht mehr als 20% der Abfragen korrekt beantworten, was die Notwendigkeit weiterer Forschung in diesem Bereich bestätigt. Wir veröffentlichen den Code für den Benchmark unter https://github.com/TAG-Research/TAG-Bench.
English
AI systems that serve natural language questions over databases promise to unlock tremendous value. Such systems would allow users to leverage the powerful reasoning and knowledge capabilities of language models (LMs) alongside the scalable computational power of data management systems. These combined capabilities would empower users to ask arbitrary natural language questions over custom data sources. However, existing methods and benchmarks insufficiently explore this setting. Text2SQL methods focus solely on natural language questions that can be expressed in relational algebra, representing a small subset of the questions real users wish to ask. Likewise, Retrieval-Augmented Generation (RAG) considers the limited subset of queries that can be answered with point lookups to one or a few data records within the database. We propose Table-Augmented Generation (TAG), a unified and general-purpose paradigm for answering natural language questions over databases. The TAG model represents a wide range of interactions between the LM and database that have been previously unexplored and creates exciting research opportunities for leveraging the world knowledge and reasoning capabilities of LMs over data. We systematically develop benchmarks to study the TAG problem and find that standard methods answer no more than 20% of queries correctly, confirming the need for further research in this area. We release code for the benchmark at https://github.com/TAG-Research/TAG-Bench.

Summary

AI-Generated Summary

PDF272November 16, 2024