ChatPaper.aiChatPaper

Representação Quantizada Auto-supervisionada para Integração Perfeita de Grafos de Conhecimento com Modelos de Linguagem de Grande Escala

Self-supervised Quantized Representation for Seamlessly Integrating Knowledge Graphs with Large Language Models

January 30, 2025
Autores: Qika Lin, Tianzhe Zhao, Kai He, Zhen Peng, Fangzhi Xu, Ling Huang, Jingying Ma, Mengling Feng
cs.AI

Resumo

Devido à presença da lacuna natural entre as estruturas de Grafos de Conhecimento (KG) e a linguagem natural, a integração eficaz das informações estruturais holísticas dos KGs com Modelos de Linguagem de Grande Escala (LLMs) surgiu como uma questão significativa. Para isso, propomos um framework de dois estágios para aprender e aplicar códigos quantizados para cada entidade, com o objetivo de integrar perfeitamente os KGs com os LLMs. Em primeiro lugar, é proposto um método de representação quantizada auto-supervisionado (SSQR) para comprimir tanto o conhecimento estrutural quanto semântico dos KGs em códigos discretos (ou seja, tokens) que se alinham ao formato de frases da linguagem. Além disso, projetamos dados de instrução de KG visualizando esses códigos aprendidos como características para entrada direta nos LLMs, alcançando assim uma integração perfeita. Os resultados experimentais demonstram que o SSQR supera os métodos quantizados não supervisionados existentes, produzindo códigos mais distinguíveis. Além disso, os modelos LLaMA2 e LLaMA3.1 ajustados também apresentam desempenho superior nas tarefas de previsão de ligação de KG e classificação de tripla, utilizando apenas 16 tokens por entidade em vez de milhares nos métodos de prompt convencionais.
English
Due to the presence of the natural gap between Knowledge Graph (KG) structures and the natural language, the effective integration of holistic structural information of KGs with Large Language Models (LLMs) has emerged as a significant question. To this end, we propose a two-stage framework to learn and apply quantized codes for each entity, aiming for the seamless integration of KGs with LLMs. Firstly, a self-supervised quantized representation (SSQR) method is proposed to compress both KG structural and semantic knowledge into discrete codes (\ie, tokens) that align the format of language sentences. We further design KG instruction-following data by viewing these learned codes as features to directly input to LLMs, thereby achieving seamless integration. The experiment results demonstrate that SSQR outperforms existing unsupervised quantized methods, producing more distinguishable codes. Further, the fine-tuned LLaMA2 and LLaMA3.1 also have superior performance on KG link prediction and triple classification tasks, utilizing only 16 tokens per entity instead of thousands in conventional prompting methods.

Summary

AI-Generated Summary

PDF253February 3, 2025