Гомофилия знаний в больших языковых моделях
Knowledge Homophily in Large Language Models
September 28, 2025
Авторы: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI
Аннотация
Крупные языковые модели (LLM) всё чаще исследуются как нейронные базы знаний для поддержки задач, требующих интенсивного использования знаний, таких как ответы на вопросы и проверка фактов. Однако структурная организация их знаний остаётся малоизученной. Вдохновлённые открытиями в когнитивной нейронауке, такими как семантическая кластеризация и прайминг, где знание одного факта увеличивает вероятность вспоминания связанных фактов, мы исследуем аналогичный паттерн гомофилии знаний в LLM. Для этого мы представляем знания LLM в виде графа, проверяя их на уровне триплетов и сущностей. Затем мы анализируем связь между уровнем знаний о сущности и её соседями, обнаруживая, что LLM склонны обладать схожим уровнем знаний о сущностях, расположенных ближе в графе. Мотивированные этим принципом гомофилии, мы предлагаем модель регрессии на основе графовых нейронных сетей (GNN) для оценки уровня знаний о сущностях в триплетах, используя оценки их соседей. Предсказанный уровень знаний позволяет нам приоритезировать проверку менее известных триплетов, тем самым максимизируя охват знаний при том же бюджете на разметку. Это не только повышает эффективность активной разметки для тонкой настройки с целью внедрения знаний в LLM, но и улучшает поиск многошаговых путей в задачах ответов на вопросы, требующих сложных рассуждений.
English
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.