HalluGuard: LLM의 데이터 기반 및 추론 기반 환각 현상 해부
HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs
January 26, 2026
저자: Xinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou
cs.AI
초록
의료, 법률, 과학적 발견과 같은 고위험 분야에서 대규모 언어 모델(LLM)의 신뢰성은 흔히 환각 현상으로 인해 훼손됩니다. 이러한 오류는 일반적으로 데이터 기반 환각과 추론 기반 환각이라는 두 가지 원인에서 비롯됩니다. 그러나 기존 탐지 방법들은 대개 한 가지 원인만을 다루거나 특정 작업에 의존적인 휴리스틱에 기반하여, 복잡한 시나리오로의 일반화가 제한됩니다. 이러한 한계를 극복하기 위해 우리는 '환각 위험 경계'를 제안합니다. 이는 통합 이론적 프레임워크로, 환각 위험을 훈련 시 불일치 및 추론 시 불안정성과 각각 연관된 데이터 기반 및 추론 기반 구성 요소로 공식적으로 분해합니다. 이를 통해 환각이 어떻게 발생하고 진화하는지 분석할 수 있는 원칙적인 기초를 마련합니다. 이 기초를 바탕으로, 우리는 NTK에서 유도된 기하학적 구조와 포착된 표현을 활용하여 데이터 기반 및 추론 기반 환각을 동시에 식별하는 NTK 기반 점수인 HalluGuard를 소개합니다. 우리는 HalluGuard를 10개의 다양한 벤치마크, 11개의 경쟁력 있는 베이스라인, 9개의 인기 있는 LLM 백본에서 평가하였으며, 다양한 형태의 LLM 환각 탐지에서 최첨단 성능을 일관되게 달성했습니다.
English
The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.