Kennis Homofilie in Grote Taalmodellen
Knowledge Homophily in Large Language Models
September 28, 2025
Auteurs: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) worden steeds vaker bestudeerd als neurale kennisbanken voor het ondersteunen van kennisintensieve toepassingen zoals vraagbeantwoording en feitencontrole. De structurele organisatie van hun kennis blijft echter onontgonnen. Geïnspireerd door bevindingen uit de cognitieve neurowetenschappen, zoals semantische clustering en priming, waarbij het kennen van één feit de kans vergroot om gerelateerde feiten te herinneren, onderzoeken we een vergelijkbaar kennis-homofiliepatroon in LLM's. Hiertoe vertalen we de kennis van LLM's naar een grafische representatie door kenniscontrole op zowel triplet- als entiteitsniveau. Vervolgens analyseren we de kennisrelatie tussen een entiteit en zijn buren, waarbij we ontdekken dat LLM's de neiging hebben om een vergelijkbaar kennisniveau te hebben over entiteiten die dichter bij elkaar in de grafiek zijn gepositioneerd. Gemotiveerd door dit homofilieprincipe stellen we een Grafisch Neuraal Netwerk (GNN) regressiemodel voor om kennisniveauscores op entiteitsniveau voor tripletten te schatten door gebruik te maken van hun buurtscores. De voorspelde kennisniveaus stellen ons in staat om het controleren van minder bekende tripletten te prioriteren, waardoor de kennisdekking wordt gemaximaliseerd binnen hetzelfde labelbudget. Dit verbetert niet alleen de efficiëntie van actieve labeling voor fine-tuning om kennis in LLM's te injecteren, maar versterkt ook de meerhops-padretrieval bij redeneerintensieve vraagbeantwoording.
English
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.