Homophilie de connaissance dans les grands modèles de langage
Knowledge Homophily in Large Language Models
September 28, 2025
papers.authors: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI
papers.abstract
Les modèles de langage de grande taille (LLMs) sont de plus en plus étudiés en tant que bases de connaissances neuronales pour soutenir des applications intensives en connaissances, telles que la réponse à des questions et la vérification de faits. Cependant, l'organisation structurelle de leurs connaissances reste inexplorée. Inspirés par des découvertes en neurosciences cognitives, telles que le regroupement sémantique et l'amorçage, où la connaissance d'un fait augmente la probabilité de se souvenir de faits connexes, nous investiguons un modèle analogue d'homophilie de connaissances dans les LLMs. Pour ce faire, nous cartographions les connaissances des LLMs dans une représentation graphique en vérifiant les connaissances à la fois au niveau des triplets et des entités. Ensuite, nous analysons la relation de connaissance entre une entité et ses voisins, découvrant que les LLMs tendent à posséder un niveau de connaissance similaire pour les entités positionnées plus proches dans le graphe. Motivés par ce principe d'homophilie, nous proposons un modèle de régression basé sur un réseau de neurones graphiques (GNN) pour estimer les scores de connaissance au niveau des entités pour les triplets en exploitant les scores de leurs voisinages. La connaissance prédite nous permet de prioriser la vérification des triplets moins bien connus, maximisant ainsi la couverture des connaissances sous le même budget d'étiquetage. Cela améliore non seulement l'efficacité de l'étiquetage actif pour le fine-tuning afin d'injecter des connaissances dans les LLMs, mais améliore également la récupération de chemins multi-sauts dans la réponse à des questions intensives en raisonnement.
English
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.