ChatPaper.aiChatPaper

大規模言語モデルと知識グラフをシームレスに統合するための自己教師付き量子化表現

Self-supervised Quantized Representation for Seamlessly Integrating Knowledge Graphs with Large Language Models

January 30, 2025
著者: Qika Lin, Tianzhe Zhao, Kai He, Zhen Peng, Fangzhi Xu, Ling Huang, Jingying Ma, Mengling Feng
cs.AI

要旨

知識グラフ(KG)構造と自然言語の間に存在する自然なギャップのために、KGの全体的な構造情報を大規模言語モデル(LLM)と効果的に統合することが重要な課題となっています。このため、我々は、各エンティティに対して量子化されたコードを学習および適用するための2段階フレームワークを提案しています。まず、自己教師付き量子化表現(SSQR)手法を提案し、KGの構造的および意味的知識を離散的なコード(すなわち、トークン)に圧縮し、言語文の形式に整合させます。さらに、これらの学習されたコードを特徴として直接LLMに入力することで、KGとLLMのシームレスな統合を実現するためのKG指示従属データを設計します。実験結果は、SSQRが既存の教師なし量子化手法を上回り、区別可能なコードを生成することを示しています。さらに、ファインチューニングされたLLaMA2およびLLaMA3.1は、従来のプロンプティング手法の数千ではなく、エンティティごとにわずか16のトークンのみを使用して、KGリンク予測およびトリプル分類タスクで優れたパフォーマンスを発揮します。
English
Due to the presence of the natural gap between Knowledge Graph (KG) structures and the natural language, the effective integration of holistic structural information of KGs with Large Language Models (LLMs) has emerged as a significant question. To this end, we propose a two-stage framework to learn and apply quantized codes for each entity, aiming for the seamless integration of KGs with LLMs. Firstly, a self-supervised quantized representation (SSQR) method is proposed to compress both KG structural and semantic knowledge into discrete codes (\ie, tokens) that align the format of language sentences. We further design KG instruction-following data by viewing these learned codes as features to directly input to LLMs, thereby achieving seamless integration. The experiment results demonstrate that SSQR outperforms existing unsupervised quantized methods, producing more distinguishable codes. Further, the fine-tuned LLaMA2 and LLaMA3.1 also have superior performance on KG link prediction and triple classification tasks, utilizing only 16 tokens per entity instead of thousands in conventional prompting methods.

Summary

AI-Generated Summary

PDF253February 3, 2025