StructLM : Vers la construction de modèles généralistes pour l'ancrage des connaissances structurées

papers.abstract

Les sources de données structurées, telles que les tableaux, les graphiques et les bases de données, sont des sources de connaissances omniprésentes. Malgré les capacités démontrées des grands modèles de langage (LLMs) sur le texte brut, leur aptitude à interpréter et à utiliser des données structurées reste limitée. Notre enquête révèle une lacune notable dans la capacité des LLMs à traiter les données structurées, par exemple, ChatGPT est en retard par rapport au modèle de pointe (SoTA) d'une moyenne de 35 %. Pour renforcer les capacités de fondement des connaissances structurées (SKG) dans les LLMs, nous avons développé un ensemble de données complet pour l'ajustement par instruction, comprenant 1,1 million d'exemples. En utilisant cet ensemble de données, nous avons entraîné une série de modèles, appelés StructLM, basés sur l'architecture Code-LLaMA, allant de 7B à 34B paramètres. Notre série StructLM surpasse les modèles spécifiques à la tâche sur 14 des 18 ensembles de données évalués et établit de nouveaux records SoTA sur 7 tâches SKG. De plus, StructLM démontre une généralisation exceptionnelle sur 6 nouvelles tâches SKG. Contrairement aux attentes, nous observons que l'augmentation de la taille du modèle offre des avantages marginaux, avec StructLM-34B ne montrant que de légères améliorations par rapport à StructLM-7B. Cela suggère que le fondement des connaissances structurées reste une tâche difficile et nécessite une conception plus innovante pour atteindre un nouveau niveau.

English

Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates exceptional generalization across 6 novel SKG tasks. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.

StructLM : Vers la construction de modèles généralistes pour l'ancrage des connaissances structurées

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

papers.abstract

Support