ChatPaper.aiChatPaper

Text2SQL não é Suficiente: Unificando IA e Bancos de Dados com TAG

Text2SQL is Not Enough: Unifying AI and Databases with TAG

August 27, 2024
Autores: Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia
cs.AI

Resumo

Sistemas de IA que respondem a perguntas em linguagem natural sobre bancos de dados prometem desbloquear um valor tremendo. Tais sistemas permitiriam aos usuários aproveitar o poderoso raciocínio e as capacidades de conhecimento dos modelos de linguagem (LMs) juntamente com a escalabilidade computacional dos sistemas de gerenciamento de dados. Essas capacidades combinadas capacitariam os usuários a fazer perguntas arbitrariamente em linguagem natural sobre fontes de dados personalizadas. No entanto, os métodos e benchmarks existentes exploram de forma insuficiente esse cenário. Os métodos Text2SQL focam exclusivamente em perguntas em linguagem natural que podem ser expressas em álgebra relacional, representando um pequeno subconjunto das perguntas que os usuários reais desejam fazer. Da mesma forma, o Retrieval-Augmented Generation (RAG) considera o subconjunto limitado de consultas que podem ser respondidas com consultas pontuais a um ou alguns registros de dados dentro do banco de dados. Propomos o Table-Augmented Generation (TAG), um paradigma unificado e de propósito geral para responder a perguntas em linguagem natural sobre bancos de dados. O modelo TAG representa uma ampla gama de interações entre o LM e o banco de dados que foram previamente inexploradas e cria oportunidades de pesquisa emocionantes para aproveitar o conhecimento mundial e as capacidades de raciocínio dos LMs sobre dados. Desenvolvemos sistematicamente benchmarks para estudar o problema TAG e descobrimos que os métodos padrão respondem corretamente a no máximo 20% das consultas, confirmando a necessidade de mais pesquisas nessa área. Disponibilizamos o código para o benchmark em https://github.com/TAG-Research/TAG-Bench.
English
AI systems that serve natural language questions over databases promise to unlock tremendous value. Such systems would allow users to leverage the powerful reasoning and knowledge capabilities of language models (LMs) alongside the scalable computational power of data management systems. These combined capabilities would empower users to ask arbitrary natural language questions over custom data sources. However, existing methods and benchmarks insufficiently explore this setting. Text2SQL methods focus solely on natural language questions that can be expressed in relational algebra, representing a small subset of the questions real users wish to ask. Likewise, Retrieval-Augmented Generation (RAG) considers the limited subset of queries that can be answered with point lookups to one or a few data records within the database. We propose Table-Augmented Generation (TAG), a unified and general-purpose paradigm for answering natural language questions over databases. The TAG model represents a wide range of interactions between the LM and database that have been previously unexplored and creates exciting research opportunities for leveraging the world knowledge and reasoning capabilities of LMs over data. We systematically develop benchmarks to study the TAG problem and find that standard methods answer no more than 20% of queries correctly, confirming the need for further research in this area. We release code for the benchmark at https://github.com/TAG-Research/TAG-Bench.

Summary

AI-Generated Summary

PDF272November 16, 2024