GKG-LLM: Un Marco Unificado para la Construcción de Grafos de Conocimiento Generalizados

Resumen

La construcción del Grafo de Conocimiento Generalizado (GKG, por sus siglas en inglés), que incluye el grafo de conocimiento, el grafo de conocimiento de eventos y el grafo de conocimiento de sentido común, es fundamental para diversas tareas de procesamiento del lenguaje natural. Los estudios actuales suelen construir estos tipos de grafos por separado, pasando por alto perspectivas holísticas y una posible unificación que podría ser beneficiosa en términos de recursos computacionales y usos. Sin embargo, un desafío clave en el desarrollo de un marco unificado para el GKG son los obstáculos que surgen de las diferencias específicas de cada tarea. En este estudio, proponemos un marco unificado para la construcción de grafos de conocimiento generalizados con el fin de abordar este desafío. En primer lugar, recopilamos datos de 15 subtareas en 29 conjuntos de datos pertenecientes a los tres tipos de grafos, categorizándolos en datos in-sample, contra-tarea y fuera de distribución (OOD, por sus siglas en inglés). Luego, proponemos un marco de ajuste fino de aprendizaje curricular en tres etapas, inyectando iterativamente conocimiento de los tres tipos de grafos en los Modelos de Lenguaje de Gran Escala. Experimentos exhaustivos demuestran que nuestro modelo propuesto mejora la construcción de los tres tipos de grafos en datos in-domain, OOD y contra-tarea.

English

The construction of Generalized Knowledge Graph (GKG), including knowledge graph, event knowledge graph and commonsense knowledge graph, is fundamental for various natural language processing tasks. Current studies typically construct these types of graph separately, overlooking holistic insights and potential unification that could be beneficial in computing resources and usage perspectives. However, a key challenge in developing a unified framework for GKG is obstacles arising from task-specific differences. In this study, we propose a unified framework for constructing generalized knowledge graphs to address this challenge. First, we collect data from 15 sub-tasks in 29 datasets across the three types of graphs, categorizing them into in-sample, counter-task, and out-of-distribution (OOD) data. Then, we propose a three-stage curriculum learning fine-tuning framework, by iteratively injecting knowledge from the three types of graphs into the Large Language Models. Extensive experiments show that our proposed model improves the construction of all three graph types across in-domain, OOD and counter-task data.

GKG-LLM: Un Marco Unificado para la Construcción de Grafos de Conocimiento Generalizados

GKG-LLM: A Unified Framework for Generalized Knowledge Graph Construction

Resumen

Support