ChatPaper.aiChatPaper

Homofilia de Conocimiento en Modelos de Lenguaje a Gran Escala

Knowledge Homophily in Large Language Models

September 28, 2025
Autores: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) han sido cada vez más estudiados como bases de conocimiento neuronal para apoyar aplicaciones intensivas en conocimiento, como la respuesta a preguntas y la verificación de hechos. Sin embargo, la organización estructural de su conocimiento sigue sin explorarse. Inspirados por hallazgos de la neurociencia cognitiva, como la agrupación semántica y el efecto de priming, donde conocer un hecho aumenta la probabilidad de recordar hechos relacionados, investigamos un patrón análogo de homofilia de conocimiento en los LLMs. Para ello, mapeamos el conocimiento de los LLMs en una representación gráfica mediante la verificación de conocimiento tanto a nivel de tripletas como de entidades. Posteriormente, analizamos la relación de conocimiento entre una entidad y sus vecinos, descubriendo que los LLMs tienden a poseer un nivel similar de conocimiento sobre entidades ubicadas más cerca en el gráfico. Motivados por este principio de homofilia, proponemos un modelo de regresión basado en Redes Neuronales de Grafos (GNN, por sus siglas en inglés) para estimar puntuaciones de conocimiento a nivel de entidades para tripletas, aprovechando las puntuaciones de sus vecindarios. La predicción de conocimiento nos permite priorizar la verificación de tripletas menos conocidas, maximizando así la cobertura de conocimiento bajo el mismo presupuesto de etiquetado. Esto no solo mejora la eficiencia del etiquetado activo para el ajuste fino con el fin de inyectar conocimiento en los LLMs, sino que también mejora la recuperación de rutas de múltiples saltos en la respuesta a preguntas intensivas en razonamiento.
English
Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we map LLM knowledge into a graph representation through knowledge checking at both the triplet and entity levels. After that, we analyze the knowledgeability relationship between an entity and its neighbors, discovering that LLMs tend to possess a similar level of knowledge about entities positioned closer in the graph. Motivated by this homophily principle, we propose a Graph Neural Network (GNN) regression model to estimate entity-level knowledgeability scores for triplets by leveraging their neighborhood scores. The predicted knowledgeability enables us to prioritize checking less well-known triplets, thereby maximizing knowledge coverage under the same labeling budget. This not only improves the efficiency of active labeling for fine-tuning to inject knowledge into LLMs but also enhances multi-hop path retrieval in reasoning-intensive question answering.
PDF11October 1, 2025