ChatPaper.aiChatPaper

StructLM: Hacia la construcción de modelos generalistas para el anclaje de conocimiento estructurado

StructLM: Towards Building Generalist Models for Structured Knowledge Grounding

February 26, 2024
Autores: Alex Zhuang, Ge Zhang, Tianyu Zheng, Xinrun Du, Junjie Wang, Weiming Ren, Stephen W. Huang, Jie Fu, Xiang Yue, Wenhu Chen
cs.AI

Resumen

Las fuentes de datos estructurados, como tablas, gráficos y bases de datos, son fuentes de conocimiento omnipresentes. A pesar de las capacidades demostradas por los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) en texto plano, su competencia para interpretar y utilizar datos estructurados sigue siendo limitada. Nuestra investigación revela una deficiencia notable en la capacidad de los LLMs para procesar datos estructurados; por ejemplo, ChatGPT se queda atrás respecto a los modelos de última generación (SoTA, por sus siglas en inglés) en un promedio del 35%. Para mejorar las capacidades de fundamentación de conocimiento estructurado (SKG, por sus siglas en inglés) en los LLMs, hemos desarrollado un conjunto de datos integral para ajuste por instrucciones que comprende 1.1 millones de ejemplos. Utilizando este conjunto de datos, entrenamos una serie de modelos, denominados StructLM, basados en la arquitectura Code-LLaMA, que van desde 7B hasta 34B parámetros. Nuestra serie StructLM supera a los modelos específicos de tareas en 14 de los 18 conjuntos de datos evaluados y establece nuevos logros SoTA en 7 tareas de SKG. Además, StructLM demuestra una generalización excepcional en 6 nuevas tareas de SKG. Contrario a las expectativas, observamos que escalar el tamaño del modelo ofrece beneficios marginales, ya que StructLM-34B muestra solo mejoras leves respecto a StructLM-7B. Esto sugiere que la fundamentación de conocimiento estructurado sigue siendo una tarea desafiante y requiere un diseño más innovador para alcanzar un nuevo nivel.
English
Structured data sources, such as tables, graphs, and databases, are ubiquitous knowledge sources. Despite the demonstrated capabilities of large language models (LLMs) on plain text, their proficiency in interpreting and utilizing structured data remains limited. Our investigation reveals a notable deficiency in LLMs' ability to process structured data, e.g., ChatGPT lags behind state-of-the-art (SoTA) model by an average of 35%. To augment the Structured Knowledge Grounding (SKG) capabilities in LLMs, we have developed a comprehensive instruction tuning dataset comprising 1.1 million examples. Utilizing this dataset, we train a series of models, referred to as StructLM, based on the Code-LLaMA architecture, ranging from 7B to 34B parameters. Our StructLM series surpasses task-specific models on 14 out of 18 evaluated datasets and establishes new SoTA achievements on 7 SKG tasks. Furthermore, StructLM demonstrates exceptional generalization across 6 novel SKG tasks. Contrary to expectations, we observe that scaling model size offers marginal benefits, with StructLM-34B showing only slight improvements over StructLM-7B. This suggests that structured knowledge grounding is still a challenging task and requires more innovative design to push to a new level.
PDF301December 15, 2024