ChatPaper.aiChatPaper

HalluGuard: Разоблачение порождений, обусловленных данными и логическими выводами, в больших языковых моделях

HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs

January 26, 2026
Авторы: Xinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou
cs.AI

Аннотация

Надежность больших языковых моделей (LLM) в высокорисковых областях, таких как здравоохранение, право и научные открытия, часто подвергается риску из-за галлюцинаций. Эти сбои обычно происходят из двух источников: галлюцинации, обусловленные данными, и галлюцинации, обусловленные рассуждениями. Однако существующие методы обнаружения обычно решают лишь одну проблему и опираются на специфические для задачи эвристики, что ограничивает их обобщаемость для сложных сценариев. Чтобы преодолеть эти ограничения, мы представляем Границу Риска Галлюцинаций — унифицированную теоретическую основу, которая формально разлагает риск галлюцинаций на компоненты, обусловленные данными и рассуждениями, связанные соответственно с несоответствиями на этапе обучения и нестабильностями на этапе вывода. Это обеспечивает принципиальную основу для анализа того, как возникают и развиваются галлюцинации. Основываясь на этом, мы представляем HalluGuard, оценку на основе NTK, которая использует индуцированную геометрию и захваченные представления NTK для совместного выявления галлюцинаций, обусловленных данными и рассуждениями. Мы оцениваем HalluGuard на 10 разнообразных бенчмарках, 11 конкурентоспособных базовых методах и 9 популярных архитектурах LLM, стабильно достигая передовых результатов в обнаружении разнообразных форм галлюцинаций LLM.
English
The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.
PDF11January 28, 2026