HalluGuard: Desmitificando las Alucinaciones Basadas en Datos y en Razonamiento en los LLM
HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs
January 26, 2026
Autores: Xinyue Zeng, Junhong Lin, Yujun Yan, Feng Guo, Liang Shi, Jun Wu, Dawei Zhou
cs.AI
Resumen
La fiabilidad de los Modelos de Lenguaje a Gran Escala (LLM) en dominios de alto riesgo como la atención sanitaria, el derecho y el descubrimiento científico se ve frecuentemente comprometida por las alucinaciones. Estos fallos suelen originarse en dos fuentes: alucinaciones basadas en datos y alucinaciones basadas en razonamiento. Sin embargo, los métodos de detección existentes generalmente abordan solo una fuente y dependen de heurísticas específicas de la tarea, lo que limita su generalización a escenarios complejos. Para superar estas limitaciones, introducimos el Límite de Riesgo de Alucinación (Hallucination Risk Bound), un marco teórico unificado que descompone formalmente el riesgo de alucinación en componentes basados en datos y en razonamiento, vinculados respectivamente a desajustes en el momento del entrenamiento e inestabilidades en el momento de la inferencia. Esto proporciona una base fundamentada para analizar cómo emergen y evolucionan las alucinaciones. Sobre esta base, presentamos HalluGuard, una puntuación basada en NTK (Núcleo Tangente Neural) que aprovecha la geometría inducida y las representaciones capturadas por el NTK para identificar conjuntamente alucinaciones basadas en datos y en razonamiento. Evaluamos HalluGuard en 10 benchmarks diversos, 11 líneas base competitivas y 9 arquitecturas de LLM populares, logrando consistentemente un rendimiento de vanguardia en la detección de diversas formas de alucinaciones en LLM.
English
The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.