TableGPT: К объединению таблиц, естественного языка и команд в единую GPT-модель
TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT
July 17, 2023
Авторы: Liangyu Zha, Junlin Zhou, Liyao Li, Rui Wang, Qingyi Huang, Saisai Yang, Jing Yuan, Changbao Su, Xiang Li, Aofeng Su, Tao Zhang, Chen Zhou, Kaizhe Shou, Miao Wang, Wufang Zhu, Guoshan Lu, Chao Ye, Yali Ye, Wentao Ye, Yiming Zhang, Xinglong Deng, Jie Xu, Haobo Wang, Gang Chen, Junbo Zhao
cs.AI
Аннотация
Таблицы широко распространены в реальных базах данных, требуя значительного времени и усилий для анализа и обработки человеком. Достижения в области больших языковых моделей (LLM) сделали возможным взаимодействие с таблицами с использованием естественного языка, приблизив эту возможность к реальности. В данной статье мы представляем TableGPT — унифицированную тонко настроенную структуру, которая позволяет LLM понимать и работать с таблицами с использованием внешних функциональных команд. Она вводит возможность бесшовного взаимодействия с таблицами, обеспечивая широкий спектр функциональных возможностей, таких как ответы на вопросы, манипуляции с данными (например, операции вставки, удаления, запроса и изменения), визуализация данных, генерация аналитических отчетов и автоматизированное прогнозирование. TableGPT стремится предоставить пользователям удобство и доступность, позволяя им легко использовать табличные данные. В основе TableGPT лежит новая концепция глобальных табличных представлений, которая позволяет LLM получить всестороннее понимание всей таблицы, выходящее за рамки метаинформации. Совместное обучение LLM на табличных и текстовых данных позволяет TableGPT достичь глубокого понимания табличных данных и способности выполнять сложные операции с таблицами через цепочку команд. Важно отметить, что TableGPT обладает преимуществом автономной системы, не зависящей от внешних API-интерфейсов. Кроме того, она поддерживает эффективный поток обработки данных, отклонение запросов (в случае необходимости) и частное развертывание, что позволяет быстрее настраивать данные для конкретных доменов и обеспечивает конфиденциальность данных, повышая адаптируемость структуры к конкретным сценариям использования.
English
Tables are prevalent in real-world databases, requiring significant time and
effort for humans to analyze and manipulate. The advancements in large language
models (LLMs) have made it possible to interact with tables using natural
language input, bringing this capability closer to reality. In this paper, we
present TableGPT, a unified fine-tuned framework that enables LLMs to
understand and operate on tables using external functional commands. It
introduces the capability to seamlessly interact with tables, enabling a wide
range of functionalities such as question answering, data manipulation (e.g.,
insert, delete, query, and modify operations), data visualization, analysis
report generation, and automated prediction. TableGPT aims to provide
convenience and accessibility to users by empowering them to effortlessly
leverage tabular data. At the core of TableGPT lies the novel concept of global
tabular representations, which empowers LLMs to gain a comprehensive
understanding of the entire table beyond meta-information. By jointly training
LLMs on both table and text modalities, TableGPT achieves a deep understanding
of tabular data and the ability to perform complex operations on tables through
chain-of-command instructions. Importantly, TableGPT offers the advantage of
being a self-contained system rather than relying on external API interfaces.
Moreover, it supports efficient data process flow, query rejection (when
appropriate) and private deployment, enabling faster domain data fine-tuning
and ensuring data privacy, which enhances the framework's adaptability to
specific use cases.