ChatPaper.aiChatPaper

HalluGuard: Entmystifizierung datengetriebener und reasoning-basierter Halluzinationen in großen Sprachmodellen

HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs

January 26, 2026
papers.authors: Xinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou
cs.AI

papers.abstract

Die Zuverlässigkeit von Large Language Models (LLMs) in hochriskanten Bereichen wie dem Gesundheitswesen, dem Rechtswesen und der wissenschaftlichen Entdeckung wird häufig durch Halluzinationen beeinträchtigt. Diese Fehler lassen sich typischerweise auf zwei Quellen zurückführen: datengetriebene Halluzinationen und reasoning-getriebene Halluzinationen. Bisherige Erkennungsmethoden adressieren jedoch meist nur eine Quelle und stützen sich auf aufgabenspezifische Heuristiken, was ihre Generalisierbarkeit auf komplexe Szenarien einschränkt. Um diese Einschränkungen zu überwinden, führen wir die Hallucination Risk Bound ein, einen vereinheitlichten theoretischen Rahmen, der das Halluzinationsrisiko formal in datengetriebene und reasoning-getriebene Komponenten zerlegt, die jeweils mit Trainingszeit-Fehlanpassungen und Inferenzzeit-Instabilitäten verknüpft sind. Dies schafft eine prinzipielle Grundlage für die Analyse, wie Halluzinationen entstehen und sich entwickeln. Aufbauend auf dieser Grundlage stellen wir HalluGuard vor, einen auf dem Neural Tangent Kernel (NTK) basierenden Score, der die induzierte Geometrie und die erfassten Repräsentationen des NTK nutzt, um datengetriebene und reasoning-getriebene Halluzinationen gemeinsam zu identifizieren. Wir evaluieren HalluGuard auf 10 diversen Benchmarks, mit 11 kompetitiven Baseline-Methoden und 9 verbreiteten LLM-Architekturen und erreichen durchgängig State-of-the-Art-Leistung bei der Erkennung verschiedener Formen von LLM-Halluzinationen.
English
The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.
PDF11January 28, 2026