ChatPaper.aiChatPaper

Représentation quantifiée auto-supervisée pour l'intégration transparente des graphes de connaissances avec de grands modèles de langage.

Self-supervised Quantized Representation for Seamlessly Integrating Knowledge Graphs with Large Language Models

January 30, 2025
Auteurs: Qika Lin, Tianzhe Zhao, Kai He, Zhen Peng, Fangzhi Xu, Ling Huang, Jingying Ma, Mengling Feng
cs.AI

Résumé

En raison de la présence de l'écart naturel entre les structures des Graphes de Connaissances (KG) et le langage naturel, l'intégration efficace des informations structurelles holistiques des KG avec les Grands Modèles de Langage (LLMs) est devenue une question significative. À cette fin, nous proposons un cadre en deux étapes pour apprendre et appliquer des codes quantifiés pour chaque entité, visant l'intégration transparente des KG avec les LLMs. Tout d'abord, une méthode de représentation quantifiée auto-supervisée (SSQR) est proposée pour compresser à la fois la connaissance structurelle et sémantique des KG en codes discrets (c'est-à-dire, des jetons) qui s'alignent sur le format des phrases en langage naturel. Nous concevons ensuite des données d'instructions de suivi des KG en considérant ces codes appris comme des caractéristiques à entrer directement dans les LLMs, permettant ainsi une intégration transparente. Les résultats des expériences montrent que SSQR surpasse les méthodes quantifiées non supervisées existantes, produisant des codes plus distinguables. De plus, les modèles LLaMA2 et LLaMA3.1 affinés ont également des performances supérieures dans la prédiction de liens des KG et les tâches de classification de triplets, en n'utilisant que 16 jetons par entité au lieu de milliers dans les méthodes de questionnement conventionnelles.
English
Due to the presence of the natural gap between Knowledge Graph (KG) structures and the natural language, the effective integration of holistic structural information of KGs with Large Language Models (LLMs) has emerged as a significant question. To this end, we propose a two-stage framework to learn and apply quantized codes for each entity, aiming for the seamless integration of KGs with LLMs. Firstly, a self-supervised quantized representation (SSQR) method is proposed to compress both KG structural and semantic knowledge into discrete codes (\ie, tokens) that align the format of language sentences. We further design KG instruction-following data by viewing these learned codes as features to directly input to LLMs, thereby achieving seamless integration. The experiment results demonstrate that SSQR outperforms existing unsupervised quantized methods, producing more distinguishable codes. Further, the fine-tuned LLaMA2 and LLaMA3.1 also have superior performance on KG link prediction and triple classification tasks, utilizing only 16 tokens per entity instead of thousands in conventional prompting methods.

Summary

AI-Generated Summary

PDF253February 3, 2025