ChatPaper.aiChatPaper

Wissenshomophilie in großen Sprachmodellen

Knowledge Homophily in Large Language Models

September 28, 2025
papers.authors: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI

papers.abstract

Große Sprachmodelle (LLMs) werden zunehmend als neuronale Wissensbasen untersucht, um wissensintensive Anwendungen wie Fragebeantwortung und Faktenprüfung zu unterstützen. Die strukturelle Organisation ihres Wissens bleibt jedoch weitgehend unerforscht. Inspiriert von Erkenntnissen der kognitiven Neurowissenschaft, wie semantischem Clustering und Priming, bei denen die Kenntnis einer Tatsache die Wahrscheinlichkeit erhöht, verwandte Fakten abzurufen, untersuchen wir ein analoges Wissenshomophilie-Muster in LLMs. Zu diesem Zweck bilden wir das Wissen von LLMs in eine Graphendarstellung ab, indem wir die Wissensüberprüfung sowohl auf der Ebene von Tripletts als auch von Entitäten durchführen. Anschließend analysieren wir die Wissensbeziehung zwischen einer Entität und ihren Nachbarn und stellen fest, dass LLMs tendenziell ein ähnliches Wissensniveau über Entitäten aufweisen, die im Graphen näher beieinander liegen. Motiviert durch dieses Homophilie-Prinzip schlagen wir ein Graph Neural Network (GNN)-Regressionsmodell vor, um wissensbasierte Bewertungen auf Entitätsebene für Tripletts zu schätzen, indem wir deren Nachbarschaftsbewertungen nutzen. Die vorhergesagten Wissensbewertungen ermöglichen es uns, die Überprüfung von weniger bekannten Tripletts zu priorisieren und so die Wissensabdeckung bei gleichem Labeling-Budget zu maximieren. Dies verbessert nicht nur die Effizienz des aktiven Labelings zur Feinabstimmung, um Wissen in LLMs zu injizieren, sondern verbessert auch die Mehrschritt-Pfadabfrage bei reasoning-intensiver Fragebeantwortung.
English
Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we map LLM knowledge into a graph representation through knowledge checking at both the triplet and entity levels. After that, we analyze the knowledgeability relationship between an entity and its neighbors, discovering that LLMs tend to possess a similar level of knowledge about entities positioned closer in the graph. Motivated by this homophily principle, we propose a Graph Neural Network (GNN) regression model to estimate entity-level knowledgeability scores for triplets by leveraging their neighborhood scores. The predicted knowledgeability enables us to prioritize checking less well-known triplets, thereby maximizing knowledge coverage under the same labeling budget. This not only improves the efficiency of active labeling for fine-tuning to inject knowledge into LLMs but also enhances multi-hop path retrieval in reasoning-intensive question answering.
PDF11October 1, 2025