大規模言語モデルにおける知識の類同性
Knowledge Homophily in Large Language Models
September 28, 2025
著者: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI
要旨
大規模言語モデル(LLM)は、質問応答やファクトチェックといった知識集約型アプリケーションを支援する神経知識ベースとして、ますます研究が進められています。しかし、その知識の構造的組織については未解明のままです。認知神経科学の知見、例えば意味的クラスタリングやプライミング(ある事実を知ることが関連する事実を想起する可能性を高める現象)に着想を得て、我々はLLMにおける類似の知識同質性パターンを調査します。この目的のために、トリプレットレベルとエンティティレベルの両方で知識チェックを行い、LLMの知識をグラフ表現にマッピングします。その後、エンティティとその近傍との知識量関係を分析し、LLMがグラフ内で近接するエンティティについて類似の知識レベルを持つ傾向があることを発見しました。この同質性原理に基づき、我々は近傍スコアを活用してトリプレットのエンティティレベル知識量スコアを推定するグラフニューラルネットワーク(GNN)回帰モデルを提案します。予測された知識量により、あまり知られていないトリプレットのチェックを優先し、同じラベリング予算下で知識カバレッジを最大化することが可能になります。これは、LLMに知識を注入するためのファインチューニングにおけるアクティブラベリングの効率を向上させるだけでなく、推論集約型の質問応答におけるマルチホップパス検索も強化します。
English
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.