Homofilia de Conocimiento en Modelos de Lenguaje a Gran Escala
Knowledge Homophily in Large Language Models
September 28, 2025
Autores: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido cada vez más estudiados como bases de conocimiento neuronal para apoyar aplicaciones intensivas en conocimiento, como la respuesta a preguntas y la verificación de hechos. Sin embargo, la organización estructural de su conocimiento sigue sin explorarse. Inspirados por hallazgos de la neurociencia cognitiva, como la agrupación semántica y el efecto de priming, donde conocer un hecho aumenta la probabilidad de recordar hechos relacionados, investigamos un patrón análogo de homofilia de conocimiento en los LLMs. Para ello, mapeamos el conocimiento de los LLMs en una representación gráfica mediante la verificación de conocimiento tanto a nivel de tripletas como de entidades. Posteriormente, analizamos la relación de conocimiento entre una entidad y sus vecinos, descubriendo que los LLMs tienden a poseer un nivel similar de conocimiento sobre entidades ubicadas más cerca en el gráfico. Motivados por este principio de homofilia, proponemos un modelo de regresión basado en Redes Neuronales de Grafos (GNN, por sus siglas en inglés) para estimar puntuaciones de conocimiento a nivel de entidades para tripletas, aprovechando las puntuaciones de sus vecindarios. La predicción de conocimiento nos permite priorizar la verificación de tripletas menos conocidas, maximizando así la cobertura de conocimiento bajo el mismo presupuesto de etiquetado. Esto no solo mejora la eficiencia del etiquetado activo para el ajuste fino con el fin de inyectar conocimiento en los LLMs, sino que también mejora la recuperación de rutas de múltiples saltos en la respuesta a preguntas intensivas en razonamiento.
English
Large Language Models (LLMs) have been increasingly studied as neural
knowledge bases for supporting knowledge-intensive applications such as
question answering and fact checking. However, the structural organization of
their knowledge remains unexplored. Inspired by cognitive neuroscience
findings, such as semantic clustering and priming, where knowing one fact
increases the likelihood of recalling related facts, we investigate an
analogous knowledge homophily pattern in LLMs. To this end, we map LLM
knowledge into a graph representation through knowledge checking at both the
triplet and entity levels. After that, we analyze the knowledgeability
relationship between an entity and its neighbors, discovering that LLMs tend to
possess a similar level of knowledge about entities positioned closer in the
graph. Motivated by this homophily principle, we propose a Graph Neural Network
(GNN) regression model to estimate entity-level knowledgeability scores for
triplets by leveraging their neighborhood scores. The predicted
knowledgeability enables us to prioritize checking less well-known triplets,
thereby maximizing knowledge coverage under the same labeling budget. This not
only improves the efficiency of active labeling for fine-tuning to inject
knowledge into LLMs but also enhances multi-hop path retrieval in
reasoning-intensive question answering.