StructLM : Vers la construction de modèles généralistes pour l'ancrage des connaissances structurées
StructLM: Towards Building Generalist Models for Structured Knowledge Grounding
February 26, 2024
Auteurs: Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen
cs.AI
Résumé
Les sources de données structurées, telles que les tableaux, les graphiques et les bases de données, sont des sources de connaissances omniprésentes. Malgré les capacités démontrées des grands modèles de langage (LLMs) sur le texte brut, leur aptitude à interpréter et à utiliser des données structurées reste limitée. Notre enquête révèle une lacune notable dans la capacité des LLMs à traiter les données structurées, par exemple, ChatGPT est en retard par rapport au modèle de pointe (SoTA) d'une moyenne de 35 %. Pour renforcer les capacités de fondement des connaissances structurées (SKG) dans les LLMs, nous avons développé un ensemble de données complet pour l'ajustement par instruction, comprenant 1,1 million d'exemples. En utilisant cet ensemble de données, nous avons entraîné une série de modèles, appelés StructLM, basés sur l'architecture Code-LLaMA, allant de 7B à 34B paramètres. Notre série StructLM surpasse les modèles spécifiques à la tâche sur 14 des 18 ensembles de données évalués et établit de nouveaux records SoTA sur 7 tâches SKG. De plus, StructLM démontre une généralisation exceptionnelle sur 6 nouvelles tâches SKG. Contrairement aux attentes, nous observons que l'augmentation de la taille du modèle offre des avantages marginaux, avec StructLM-34B ne montrant que de légères améliorations par rapport à StructLM-7B. Cela suggère que le fondement des connaissances structurées reste une tâche difficile et nécessite une conception plus innovante pour atteindre un nouveau niveau.
English
Structured data sources, such as tables, graphs, and databases, are
ubiquitous knowledge sources. Despite the demonstrated capabilities of large
language models (LLMs) on plain text, their proficiency in interpreting and
utilizing structured data remains limited. Our investigation reveals a notable
deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags
behind state-of-the-art (SoTA) model by an average of 35%. To augment the
Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a
comprehensive instruction tuning dataset comprising 1.1 million examples.
Utilizing this dataset, we train a series of models, referred to as StructLM,
based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our
StructLM series surpasses task-specific models on 14 out of 18 evaluated
datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore,
StructLM demonstrates exceptional generalization across 6 novel SKG tasks.
Contrary to expectations, we observe that scaling model size offers marginal
benefits, with StructLM-34B showing only slight improvements over StructLM-7B.
This suggests that structured knowledge grounding is still a challenging task
and requires more innovative design to push to a new level.