ChatPaper.aiChatPaper

StructLM: Rumo à Construção de Modelos Generalistas para a Fundamentação de Conhecimento Estruturado

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

February 26, 2024
Autores: Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen
cs.AI

Resumo

Fontes de dados estruturados, como tabelas, gráficos e bancos de dados, são fontes de conhecimento onipresentes. Apesar das capacidades demonstradas por grandes modelos de linguagem (LLMs) em texto simples, sua proficiência em interpretar e utilizar dados estruturados permanece limitada. Nossa investigação revela uma deficiência notável na capacidade dos LLMs de processar dados estruturados, por exemplo, o ChatGPT fica atrás do modelo state-of-the-art (SoTA) em uma média de 35%. Para aprimorar as capacidades de Fundamentação de Conhecimento Estruturado (SKG) em LLMs, desenvolvemos um conjunto abrangente de dados de ajuste de instruções, compreendendo 1,1 milhão de exemplos. Utilizando esse conjunto de dados, treinamos uma série de modelos, denominados StructLM, baseados na arquitetura Code-LLaMA, variando de 7B a 34B parâmetros. Nossa série StructLM supera modelos específicos para tarefas em 14 dos 18 conjuntos de dados avaliados e estabelece novos recordes SoTA em 7 tarefas de SKG. Além disso, o StructLM demonstra uma generalização excepcional em 6 novas tarefas de SKG. Contrariamente às expectativas, observamos que o aumento do tamanho do modelo oferece benefícios marginais, com o StructLM-34B mostrando apenas melhorias leves em relação ao StructLM-7B. Isso sugere que a fundamentação de conhecimento estruturado ainda é uma tarefa desafiadora e requer um design mais inovador para avançar para um novo patamar.
English
Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates exceptional generalization across 6 novel SKG tasks. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.
PDF291December 15, 2024