Homofilia de Conhecimento em Modelos de Linguagem de Grande Escala
Knowledge Homophily in Large Language Models
September 28, 2025
Autores: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI
Resumo
Modelos de Linguagem de Grande Escala (LLMs) têm sido cada vez mais estudados como bases de conhecimento neural para apoiar aplicações intensivas em conhecimento, como resposta a perguntas e verificação de fatos. No entanto, a organização estrutural de seu conhecimento permanece inexplorada. Inspirados por descobertas da neurociência cognitiva, como agrupamento semântico e priming, onde conhecer um fato aumenta a probabilidade de recordar fatos relacionados, investigamos um padrão análogo de homofilia de conhecimento em LLMs. Para isso, mapeamos o conhecimento dos LLMs em uma representação gráfica por meio de verificação de conhecimento tanto no nível de triplas quanto de entidades. Em seguida, analisamos a relação de conhecimento entre uma entidade e seus vizinhos, descobrindo que os LLMs tendem a possuir um nível semelhante de conhecimento sobre entidades posicionadas mais próximas no grafo. Motivados por esse princípio de homofilia, propomos um modelo de regressão de Rede Neural de Grafos (GNN) para estimar escores de conhecimento no nível de entidades para triplas, aproveitando os escores de seus vizinhos. O conhecimento previsto nos permite priorizar a verificação de triplas menos conhecidas, maximizando assim a cobertura de conhecimento sob o mesmo orçamento de rotulagem. Isso não apenas melhora a eficiência da rotulagem ativa para ajuste fino a fim de injetar conhecimento nos LLMs, mas também aprimora a recuperação de caminhos de múltiplos saltos em respostas a perguntas intensivas em raciocínio.
English
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.