Homophilie de connaissance dans les grands modèles de langage

papers.abstract

Les modèles de langage de grande taille (LLMs) sont de plus en plus étudiés en tant que bases de connaissances neuronales pour soutenir des applications intensives en connaissances, telles que la réponse à des questions et la vérification de faits. Cependant, l'organisation structurelle de leurs connaissances reste inexplorée. Inspirés par des découvertes en neurosciences cognitives, telles que le regroupement sémantique et l'amorçage, où la connaissance d'un fait augmente la probabilité de se souvenir de faits connexes, nous investiguons un modèle analogue d'homophilie de connaissances dans les LLMs. Pour ce faire, nous cartographions les connaissances des LLMs dans une représentation graphique en vérifiant les connaissances à la fois au niveau des triplets et des entités. Ensuite, nous analysons la relation de connaissance entre une entité et ses voisins, découvrant que les LLMs tendent à posséder un niveau de connaissance similaire pour les entités positionnées plus proches dans le graphe. Motivés par ce principe d'homophilie, nous proposons un modèle de régression basé sur un réseau de neurones graphiques (GNN) pour estimer les scores de connaissance au niveau des entités pour les triplets en exploitant les scores de leurs voisinages. La connaissance prédite nous permet de prioriser la vérification des triplets moins bien connus, maximisant ainsi la couverture des connaissances sous le même budget d'étiquetage. Cela améliore non seulement l'efficacité de l'étiquetage actif pour le fine-tuning afin d'injecter des connaissances dans les LLMs, mais améliore également la récupération de chemins multi-sauts dans la réponse à des questions intensives en raisonnement.

English

Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we map LLM knowledge into a graph representation through knowledge checking at both the triplet and entity levels. After that, we analyze the knowledgeability relationship between an entity and its neighbors, discovering that LLMs tend to possess a similar level of knowledge about entities positioned closer in the graph. Motivated by this homophily principle, we propose a Graph Neural Network (GNN) regression model to estimate entity-level knowledgeability scores for triplets by leveraging their neighborhood scores. The predicted knowledgeability enables us to prioritize checking less well-known triplets, thereby maximizing knowledge coverage under the same labeling budget. This not only improves the efficiency of active labeling for fine-tuning to inject knowledge into LLMs but also enhances multi-hop path retrieval in reasoning-intensive question answering.

Homophilie de connaissance dans les grands modèles de langage

Knowledge Homophily in Large Language Models

papers.abstract

Support