HalluGuard: LLMにおけるデータ駆動型および推論駆動型幻覚の解明
HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs
January 26, 2026
著者: Xinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou
cs.AI
要旨
大規模言語モデル(LLM)の信頼性は、医療、法務、科学発見などの高リスク領域において、しばしば幻覚(ハルシネーション)によって損なわれる。こうした失敗は通常、データ駆動型幻覚と推論駆動型幻覚という二つの源泉に起因する。しかし既存の検出手法は、一般に単一の源泉のみに対応し、タスク固有のヒューリスティクスに依存するため、複雑なシナリオへの汎化が制限される。これらの限界を克服するため、我々は「幻覚リスク境界(Hallucination Risk Bound)」を提案する。これは、幻覚リスクをデータ駆動型と推論駆動型の構成要素に形式的に分解する統一理論枠組みであり、それぞれ学習時のミスマッチと推論時の不安定性に関連付けられる。これにより、幻覚がどのように発生し進展するかを分析するための原理的な基盤が提供される。この基盤に立脚して、我々はNTK(ニューラルタンジェントカーネル)に基づくスコア「HalluGuard」を提案する。これは、NTKが誘導する幾何学構造と捕捉された表現を活用し、データ駆動型と推論駆動型の幻覚を統合的に識別する。HalluGuardを10の多様なベンチマーク、11の競合ベースライン、9つの主要なLLM基盤モデルで評価した結果、多様な形態のLLM幻覚検出において、一貫して最先端の性能を達成した。
English
The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.