ChatPaper.aiChatPaper

대형 언어 모델에서의 지식 동질성

Knowledge Homophily in Large Language Models

September 28, 2025
저자: Utkarsh Sahu, Zhisheng Qi, Mahantesh Halappanavar, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt, Yu Zhang, Yao Ma, Yu Wang
cs.AI

초록

대규모 언어 모델(LLMs)은 질문 응답 및 사실 확인과 같은 지식 집약적 애플리케이션을 지원하기 위한 신경 지식 기반으로 점점 더 많이 연구되고 있습니다. 그러나 이들의 지식 구조적 조직은 아직 탐구되지 않았습니다. 인지 신경과학 연구 결과, 예를 들어 의미론적 클러스터링 및 프라이밍(priming)과 같이 하나의 사실을 알면 관련된 사실을 회상할 가능성이 높아지는 현상에서 영감을 받아, 우리는 LLMs에서 유사한 지식 동질성 패턴을 조사합니다. 이를 위해, 우리는 트리플릿(triplet) 및 엔티티(entity) 수준에서의 지식 확인을 통해 LLM 지식을 그래프 표현으로 매핑합니다. 이후, 우리는 엔티티와 그 이웃 간의 지식성(knowledgeability) 관계를 분석하여, 그래프에서 더 가까이 위치한 엔티티에 대해 LLMs가 유사한 수준의 지식을 보유하는 경향이 있음을 발견했습니다. 이러한 동질성 원리에 동기를 받아, 우리는 그래프 신경망(GNN) 회귀 모델을 제안하여 이웃 점수를 활용하여 트리플릿에 대한 엔티티 수준의 지식성 점수를 추정합니다. 예측된 지식성을 통해 우리는 잘 알려지지 않은 트리플릿을 우선적으로 확인하여 동일한 라벨링 예산 하에서 지식 커버리지를 극대화할 수 있습니다. 이는 LLMs에 지식을 주입하기 위한 미세 조정(fine-tuning)을 위한 능동적 라벨링의 효율성을 향상시킬 뿐만 아니라, 추론 집약적 질문 응답에서의 다중 홉 경로 검색을 강화합니다.
English
Large Language Models (LLMs) have been increasingly studied as neural knowledge bases for supporting knowledge-intensive applications such as question answering and fact checking. However, the structural organization of their knowledge remains unexplored. Inspired by cognitive neuroscience findings, such as semantic clustering and priming, where knowing one fact increases the likelihood of recalling related facts, we investigate an analogous knowledge homophily pattern in LLMs. To this end, we map LLM knowledge into a graph representation through knowledge checking at both the triplet and entity levels. After that, we analyze the knowledgeability relationship between an entity and its neighbors, discovering that LLMs tend to possess a similar level of knowledge about entities positioned closer in the graph. Motivated by this homophily principle, we propose a Graph Neural Network (GNN) regression model to estimate entity-level knowledgeability scores for triplets by leveraging their neighborhood scores. The predicted knowledgeability enables us to prioritize checking less well-known triplets, thereby maximizing knowledge coverage under the same labeling budget. This not only improves the efficiency of active labeling for fine-tuning to inject knowledge into LLMs but also enhances multi-hop path retrieval in reasoning-intensive question answering.
PDF11October 1, 2025