Text2SQL недостаточно: объединение искусственного интеллекта и баз данных с помощью TAG.
Text2SQL is Not Enough: Unifying AI and Databases with TAG
August 27, 2024
Авторы: Asim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia
cs.AI
Аннотация
Системы искусственного интеллекта, обрабатывающие естественно-языковые запросы к базам данных, обещают создать огромную ценность. Такие системы позволят пользователям использовать мощные возможности рассуждения и знаний языковых моделей (LM) наряду с масштабируемой вычислительной мощностью систем управления данными. Эти объединенные возможности дадут пользователям возможность задавать произвольные естественно-языковые вопросы к пользовательским источникам данных. Однако существующие методы и бенчмарки недостаточно исследуют эту область. Методы Text2SQL сосредотачиваются исключительно на естественно-языковых вопросах, которые могут быть выражены в реляционной алгебре, что представляет лишь небольшую часть вопросов, которые реальные пользователи хотели бы задать. Аналогично, Retrieval-Augmented Generation (RAG) рассматривает ограниченный набор запросов, на которые можно ответить с помощью поиска точечных данных в одной или нескольких записях в базе данных. Мы предлагаем Table-Augmented Generation (TAG), унифицированную и универсальную парадигму для ответов на естественно-языковые вопросы к базам данных. Модель TAG представляет широкий спектр взаимодействий между LM и базой данных, которые ранее не исследовались, и создает увлекательные исследовательские возможности для использования мировых знаний и возможностей рассуждения LM над данными. Мы систематически разрабатываем бенчмарки для изучения проблемы TAG и обнаруживаем, что стандартные методы правильно отвечают не более чем на 20% запросов, что подтверждает необходимость дальнейших исследований в этой области. Мы выкладываем код для бенчмарка по ссылке https://github.com/TAG-Research/TAG-Bench.
English
AI systems that serve natural language questions over databases promise to
unlock tremendous value. Such systems would allow users to leverage the
powerful reasoning and knowledge capabilities of language models (LMs)
alongside the scalable computational power of data management systems. These
combined capabilities would empower users to ask arbitrary natural language
questions over custom data sources. However, existing methods and benchmarks
insufficiently explore this setting. Text2SQL methods focus solely on natural
language questions that can be expressed in relational algebra, representing a
small subset of the questions real users wish to ask. Likewise,
Retrieval-Augmented Generation (RAG) considers the limited subset of queries
that can be answered with point lookups to one or a few data records within the
database. We propose Table-Augmented Generation (TAG), a unified and
general-purpose paradigm for answering natural language questions over
databases. The TAG model represents a wide range of interactions between the LM
and database that have been previously unexplored and creates exciting research
opportunities for leveraging the world knowledge and reasoning capabilities of
LMs over data. We systematically develop benchmarks to study the TAG problem
and find that standard methods answer no more than 20% of queries correctly,
confirming the need for further research in this area. We release code for the
benchmark at https://github.com/TAG-Research/TAG-Bench.Summary
AI-Generated Summary