StructLM: Verso la costruzione di modelli generalisti per il grounding della conoscenza strutturata

Abstract

Le fonti di dati strutturati, come tabelle, grafici e database, rappresentano sorgenti di conoscenza onnipresenti. Nonostante le capacità dimostrate dai grandi modelli linguistici (LLM) nel trattamento del testo semplice, la loro competenza nell'interpretare e utilizzare dati strutturati rimane limitata. La nostra indagine rivela una carenza significativa nella capacità degli LLM di elaborare dati strutturati; ad esempio, ChatGPT si posiziona in media al 35% al di sotto dei modelli all'avanguardia (SoTA). Per potenziare le capacità di Structured Knowledge Grounding (SKG) negli LLM, abbiamo sviluppato un dataset completo per l'instruction tuning, composto da 1,1 milioni di esempi. Utilizzando questo dataset, abbiamo addestrato una serie di modelli, denominati StructLM, basati sull'architettura Code-LLaMA, con dimensioni che vanno da 7B a 34B parametri. La serie StructLM supera i modelli specifici per task su 14 dei 18 dataset valutati e stabilisce nuovi record SoTA in 7 task SKG. Inoltre, StructLM dimostra un'eccezionale generalizzazione su 6 nuovi task SKG. Contrariamente alle aspettative, osserviamo che l'aumento delle dimensioni del modello offre benefici marginali, con StructLM-34B che mostra solo lievi miglioramenti rispetto a StructLM-7B. Ciò suggerisce che il grounding della conoscenza strutturata rimane un compito impegnativo e richiede un design più innovativo per raggiungere un nuovo livello.

English

Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates exceptional generalization across 6 novel SKG tasks. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.

StructLM: Verso la costruzione di modelli generalisti per il grounding della conoscenza strutturata

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

Abstract

Support