Omofilia della Conoscenza nei Modelli Linguistici di Grandi Dimensioni

Abstract

I modelli linguistici di grandi dimensioni (LLM) sono stati sempre più studiati come basi di conoscenza neurale per supportare applicazioni ad alta intensità di conoscenza, come il question answering e il fact checking. Tuttavia, l'organizzazione strutturale della loro conoscenza rimane inesplorata. Ispirati da scoperte della neuroscienza cognitiva, come il clustering semantico e il priming, in cui la conoscenza di un fatto aumenta la probabilità di ricordare fatti correlati, investigiamo un modello analogo di omofilia della conoscenza negli LLM. A tal fine, mappiamo la conoscenza degli LLM in una rappresentazione grafica attraverso il controllo della conoscenza sia a livello di triplette che di entità. Successivamente, analizziamo la relazione di conoscenza tra un'entità e i suoi vicini, scoprendo che gli LLM tendono a possedere un livello simile di conoscenza riguardo alle entità posizionate più vicine nel grafo. Motivati da questo principio di omofilia, proponiamo un modello di regressione basato su una rete neurale a grafo (GNN) per stimare i punteggi di conoscenza a livello di entità per le triplette sfruttando i punteggi dei loro vicini. La conoscibilità predetta ci permette di dare priorità al controllo delle triplette meno conosciute, massimizzando così la copertura della conoscenza con lo stesso budget di etichettatura. Ciò non solo migliora l'efficienza dell'etichettatura attiva per il fine-tuning per iniettare conoscenza negli LLM, ma migliora anche il recupero di percorsi multi-hop nel question answering ad alta intensità di ragionamento.

English

Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we map LLM knowledge into a graph representation through knowledge checking at both the triplet and entity levels. After that, we analyze the knowledgeability relationship between an entity and its neighbors, discovering that LLMs tend to possess a similar level of knowledge about entities positioned closer in the graph. Motivated by this homophily principle, we propose a Graph Neural Network (GNN) regression model to estimate entity-level knowledgeability scores for triplets by leveraging their neighborhood scores. The predicted knowledgeability enables us to prioritize checking less well-known triplets, thereby maximizing knowledge coverage under the same labeling budget. This not only improves the efficiency of active labeling for fine-tuning to inject knowledge into LLMs but also enhances multi-hop path retrieval in reasoning-intensive question answering.

Omofilia della Conoscenza nei Modelli Linguistici di Grandi Dimensioni

Knowledge Homophily in Large Language Models

Abstract

Support