Omofilia della Conoscenza nei Modelli Linguistici di Grandi Dimensioni
Knowledge Homophily in Large Language Models
September 28, 2025
Autori: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) sono stati sempre più studiati come basi di conoscenza neurale per supportare applicazioni ad alta intensità di conoscenza, come il question answering e il fact checking. Tuttavia, l'organizzazione strutturale della loro conoscenza rimane inesplorata. Ispirati da scoperte della neuroscienza cognitiva, come il clustering semantico e il priming, in cui la conoscenza di un fatto aumenta la probabilità di ricordare fatti correlati, investigiamo un modello analogo di omofilia della conoscenza negli LLM. A tal fine, mappiamo la conoscenza degli LLM in una rappresentazione grafica attraverso il controllo della conoscenza sia a livello di triplette che di entità. Successivamente, analizziamo la relazione di conoscenza tra un'entità e i suoi vicini, scoprendo che gli LLM tendono a possedere un livello simile di conoscenza riguardo alle entità posizionate più vicine nel grafo. Motivati da questo principio di omofilia, proponiamo un modello di regressione basato su una rete neurale a grafo (GNN) per stimare i punteggi di conoscenza a livello di entità per le triplette sfruttando i punteggi dei loro vicini. La conoscibilità predetta ci permette di dare priorità al controllo delle triplette meno conosciute, massimizzando così la copertura della conoscenza con lo stesso budget di etichettatura. Ciò non solo migliora l'efficienza dell'etichettatura attiva per il fine-tuning per iniettare conoscenza negli LLM, ma migliora anche il recupero di percorsi multi-hop nel question answering ad alta intensità di ragionamento.
English
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.