HalluGuard : Démystification des hallucinations dans les LLM, issues des données et du raisonnement
HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs
January 26, 2026
papers.authors: Xinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou
cs.AI
papers.abstract
La fiabilité des grands modèles de langage (LLM) dans des domaines à haut risque comme la santé, le droit et la découverte scientifique est souvent compromise par des hallucinations. Ces échecs proviennent généralement de deux sources : les hallucinations liées aux données et les hallucinations liées au raisonnement. Cependant, les méthodes de détection existantes ne traitent généralement qu'une seule source et s'appuient sur des heuristiques spécifiques aux tâches, limitant leur généralisation à des scénarios complexes. Pour surmonter ces limitations, nous introduisons la Borne de Risque d'Hallucination, un cadre théorique unifié qui décompose formellement le risque d'hallucination en composantes liées aux données et au raisonnement, respectivement associées à des incohérences lors de l'entraînement et à des instabilités lors de l'inférence. Cela fournit une base principielle pour analyser comment les hallucinations émergent et évoluent. Sur cette base, nous présentons HalluGuard, un score basé sur le NTK qui exploite la géométrie induite et les représentations capturées par le NTK pour identifier conjointement les hallucinations liées aux données et au raisonnement. Nous évaluons HalluGuard sur 10 benchmarks diversifiés, 11 lignes de base compétitives et 9 architectures de LLM populaires, obtenant systématiquement des performances à l'état de l'art pour détecter diverses formes d'hallucinations des LLM.
English
The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.