GKG-LLM: Een Geïntegreerd Framework voor de Constructie van Gegeneraliseerde Kennisgrafen

Samenvatting

De constructie van een Algemeen Kennisgrafiek (Generalized Knowledge Graph, GKG), inclusief kennisgrafieken, gebeurteniskennisgrafieken en gezondverstandkennisgrafieken, is fundamenteel voor diverse natuurlijke taalverwerkingstaken. Huidige studies construeren deze typen grafieken doorgaans afzonderlijk, waarbij holistische inzichten en mogelijke unificatie die voordelig zouden kunnen zijn vanuit het oogpunt van computerbronnen en gebruik, over het hoofd worden gezien. Een belangrijke uitdaging bij het ontwikkelen van een uniform raamwerk voor GKG zijn echter obstakels die voortkomen uit taakspecifieke verschillen. In deze studie stellen we een uniform raamwerk voor voor de constructie van algemene kennisgrafieken om deze uitdaging aan te pakken. Eerst verzamelen we gegevens van 15 subtaken in 29 datasets over de drie typen grafieken, waarbij we deze categoriseren in in-sample, tegenstrijdige taak- en out-of-distribution (OOD) gegevens. Vervolgens stellen we een driedelig curriculumleren-finetuningraamwerk voor, waarbij iteratief kennis uit de drie typen grafieken wordt geïnjecteerd in grote taalmodelmodellen. Uitgebreide experimenten tonen aan dat ons voorgestelde model de constructie van alle drie de grafiektypen verbetert voor in-domein, OOD en tegenstrijdige taakgegevens.

English

The construction of Generalized Knowledge Graph (GKG), including knowledge graph, event knowledge graph and commonsense knowledge graph, is fundamental for various natural language processing tasks. Current studies typically construct these types of graph separately, overlooking holistic insights and potential unification that could be beneficial in computing resources and usage perspectives. However, a key challenge in developing a unified framework for GKG is obstacles arising from task-specific differences. In this study, we propose a unified framework for constructing generalized knowledge graphs to address this challenge. First, we collect data from 15 sub-tasks in 29 datasets across the three types of graphs, categorizing them into in-sample, counter-task, and out-of-distribution (OOD) data. Then, we propose a three-stage curriculum learning fine-tuning framework, by iteratively injecting knowledge from the three types of graphs into the Large Language Models. Extensive experiments show that our proposed model improves the construction of all three graph types across in-domain, OOD and counter-task data.

GKG-LLM: Een Geïntegreerd Framework voor de Constructie van Gegeneraliseerde Kennisgrafen

GKG-LLM: A Unified Framework for Generalized Knowledge Graph Construction

Samenvatting

Support