GKG-LLM : Un Cadre Unifié pour la Construction de Graphes de Connaissances Généralisés

papers.abstract

La construction de graphes de connaissances généralisés (Generalized Knowledge Graph, GKG), incluant les graphes de connaissances, les graphes de connaissances événementiels et les graphes de connaissances de sens commun, est fondamentale pour diverses tâches de traitement du langage naturel. Les études actuelles construisent généralement ces types de graphes séparément, négligeant ainsi des perspectives holistiques et une unification potentielle qui pourraient être bénéfiques en termes de ressources de calcul et d'utilisation. Cependant, un défi majeur dans le développement d'un cadre unifié pour les GKG réside dans les obstacles découlant des différences spécifiques aux tâches. Dans cette étude, nous proposons un cadre unifié pour la construction de graphes de connaissances généralisés afin de relever ce défi. Tout d'abord, nous collectons des données provenant de 15 sous-tâches dans 29 jeux de données couvrant les trois types de graphes, en les catégorisant en données intra-échantillon, contre-tâche et hors distribution (Out-of-Distribution, OOD). Ensuite, nous proposons un cadre d'apprentissage par curriculum en trois étapes pour l'affinement des modèles de langage de grande taille (Large Language Models), en injectant itérativement des connaissances provenant des trois types de graphes. Des expériences approfondies montrent que notre modèle proposé améliore la construction des trois types de graphes pour les données intra-domaine, OOD et contre-tâche.

English

The construction of Generalized Knowledge Graph (GKG), including knowledge graph, event knowledge graph and commonsense knowledge graph, is fundamental for various natural language processing tasks. Current studies typically construct these types of graph separately, overlooking holistic insights and potential unification that could be beneficial in computing resources and usage perspectives. However, a key challenge in developing a unified framework for GKG is obstacles arising from task-specific differences. In this study, we propose a unified framework for constructing generalized knowledge graphs to address this challenge. First, we collect data from 15 sub-tasks in 29 datasets across the three types of graphs, categorizing them into in-sample, counter-task, and out-of-distribution (OOD) data. Then, we propose a three-stage curriculum learning fine-tuning framework, by iteratively injecting knowledge from the three types of graphs into the Large Language Models. Extensive experiments show that our proposed model improves the construction of all three graph types across in-domain, OOD and counter-task data.

GKG-LLM : Un Cadre Unifié pour la Construction de Graphes de Connaissances Généralisés

GKG-LLM: A Unified Framework for Generalized Knowledge Graph Construction

papers.abstract

Support