TableGPT : Vers l'unification des tableaux, du langage naturel et des commandes dans un seul GPT
TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT
July 17, 2023
Auteurs: Liangyu Zha, Junlin Zhou, Liyao Li, Rui Wang, Qingyi Huang, Saisai Yang, Jing Yuan, Changbao Su, Xiang Li, Aofeng Su, Tao Zhang, Chen Zhou, Kaizhe Shou, Miao Wang, Wufang Zhu, Guoshan Lu, Chao Ye, Yali Ye, Wentao Ye, Yiming Zhang, Xinglong Deng, Jie Xu, Haobo Wang, Gang Chen, Junbo Zhao
cs.AI
Résumé
Les tableaux sont omniprésents dans les bases de données du monde réel, nécessitant un temps et un effort considérables pour les humains afin de les analyser et de les manipuler. Les avancées des grands modèles de langage (LLMs) ont rendu possible l'interaction avec les tableaux en utilisant des entrées en langage naturel, rapprochant cette capacité de la réalité. Dans cet article, nous présentons TableGPT, un framework unifié et affiné qui permet aux LLMs de comprendre et d'opérer sur des tableaux en utilisant des commandes fonctionnelles externes. Il introduit la capacité d'interagir de manière transparente avec les tableaux, permettant une large gamme de fonctionnalités telles que la réponse aux questions, la manipulation des données (par exemple, les opérations d'insertion, de suppression, de requête et de modification), la visualisation des données, la génération de rapports d'analyse et la prédiction automatisée. TableGPT vise à offrir commodité et accessibilité aux utilisateurs en leur permettant d'exploiter facilement les données tabulaires. Au cœur de TableGPT se trouve le concept novateur de représentations tabulaires globales, qui permet aux LLMs d'acquérir une compréhension complète de l'ensemble du tableau au-delà des méta-informations. En entraînant conjointement les LLMs sur les modalités de tableau et de texte, TableGPT atteint une compréhension approfondie des données tabulaires et la capacité d'effectuer des opérations complexes sur les tableaux via des instructions en chaîne de commandes. Il est important de noter que TableGPT offre l'avantage d'être un système autonome plutôt que de dépendre d'interfaces API externes. De plus, il prend en charge un flux de traitement de données efficace, le rejet de requêtes (lorsque cela est approprié) et le déploiement privé, permettant un affinage plus rapide des données de domaine et garantissant la confidentialité des données, ce qui améliore l'adaptabilité du framework à des cas d'utilisation spécifiques.
English
Tables are prevalent in real-world databases, requiring significant time and
effort for humans to analyze and manipulate. The advancements in large language
models (LLMs) have made it possible to interact with tables using natural
language input, bringing this capability closer to reality. In this paper, we
present TableGPT, a unified fine-tuned framework that enables LLMs to
understand and operate on tables using external functional commands. It
introduces the capability to seamlessly interact with tables, enabling a wide
range of functionalities such as question answering, data manipulation (e.g.,
insert, delete, query, and modify operations), data visualization, analysis
report generation, and automated prediction. TableGPT aims to provide
convenience and accessibility to users by empowering them to effortlessly
leverage tabular data. At the core of TableGPT lies the novel concept of global
tabular representations, which empowers LLMs to gain a comprehensive
understanding of the entire table beyond meta-information. By jointly training
LLMs on both table and text modalities, TableGPT achieves a deep understanding
of tabular data and the ability to perform complex operations on tables through
chain-of-command instructions. Importantly, TableGPT offers the advantage of
being a self-contained system rather than relying on external API interfaces.
Moreover, it supports efficient data process flow, query rejection (when
appropriate) and private deployment, enabling faster domain data fine-tuning
and ensuring data privacy, which enhances the framework's adaptability to
specific use cases.