GKG-LLM : Un Cadre Unifié pour la Construction de Graphes de Connaissances Généralisés
GKG-LLM: A Unified Framework for Generalized Knowledge Graph Construction
March 14, 2025
Auteurs: Jian Zhang, Bifan Wei, Shihao Qi, haiping Zhu, Jun Liu, Qika Lin
cs.AI
Résumé
La construction de graphes de connaissances généralisés (Generalized Knowledge Graph, GKG), incluant les graphes de connaissances, les graphes de connaissances événementiels et les graphes de connaissances de sens commun, est fondamentale pour diverses tâches de traitement du langage naturel. Les études actuelles construisent généralement ces types de graphes séparément, négligeant ainsi des perspectives holistiques et une unification potentielle qui pourraient être bénéfiques en termes de ressources de calcul et d'utilisation. Cependant, un défi majeur dans le développement d'un cadre unifié pour les GKG réside dans les obstacles découlant des différences spécifiques aux tâches. Dans cette étude, nous proposons un cadre unifié pour la construction de graphes de connaissances généralisés afin de relever ce défi. Tout d'abord, nous collectons des données provenant de 15 sous-tâches dans 29 jeux de données couvrant les trois types de graphes, en les catégorisant en données intra-échantillon, contre-tâche et hors distribution (Out-of-Distribution, OOD). Ensuite, nous proposons un cadre d'apprentissage par curriculum en trois étapes pour l'affinement des modèles de langage de grande taille (Large Language Models), en injectant itérativement des connaissances provenant des trois types de graphes. Des expériences approfondies montrent que notre modèle proposé améliore la construction des trois types de graphes pour les données intra-domaine, OOD et contre-tâche.
English
The construction of Generalized Knowledge Graph (GKG), including knowledge
graph, event knowledge graph and commonsense knowledge graph, is fundamental
for various natural language processing tasks. Current studies typically
construct these types of graph separately, overlooking holistic insights and
potential unification that could be beneficial in computing resources and usage
perspectives. However, a key challenge in developing a unified framework for
GKG is obstacles arising from task-specific differences. In this study, we
propose a unified framework for constructing generalized knowledge graphs to
address this challenge. First, we collect data from 15 sub-tasks in 29 datasets
across the three types of graphs, categorizing them into in-sample,
counter-task, and out-of-distribution (OOD) data. Then, we propose a
three-stage curriculum learning fine-tuning framework, by iteratively injecting
knowledge from the three types of graphs into the Large Language Models.
Extensive experiments show that our proposed model improves the construction of
all three graph types across in-domain, OOD and counter-task data.Summary
AI-Generated Summary