HalluGuard: Desmistificando Alucinações Baseadas em Dados e em Raciocínio em LLMs

Resumo

A confiabilidade dos Modelos de Linguagem de Grande Porte (LLMs) em domínios de alta responsabilidade, como saúde, direito e descoberta científica, é frequentemente comprometida por alucinações. Essas falhas geralmente decorrem de duas fontes: alucinações orientadas por dados e alucinações orientadas por raciocínio. No entanto, os métodos de deteção existentes geralmente abordam apenas uma fonte e dependem de heurísticas específicas da tarefa, limitando sua generalização para cenários complexos. Para superar essas limitações, introduzimos o Limite de Risco de Alucinação, uma estrutura teórica unificada que decompõe formalmente o risco de alucinação em componentes orientados por dados e orientados por raciocínio, ligados respetivamente a discrepâncias no momento do treino e a instabilidades no momento da inferência. Isto fornece uma base fundamentada para analisar como as alucinações emergem e evoluem. Com base nesta fundação, introduzimos o HalluGuard, uma pontuação baseada em NTK que aproveita a geometria induzida e as representações capturadas pelo NTK para identificar conjuntamente alucinações orientadas por dados e orientadas por raciocínio. Avaliamos o HalluGuard em 10 benchmarks diversos, 11 linhas de base competitivas e 9 arquiteturas populares de LLMs, alcançando consistentemente um desempenho de última geração na deteção de diversas formas de alucinações em LLMs.

English

The reliability of Large Language Models (LLMs) in high-stakes domains such as healthcare, law, and scientific discovery is often compromised by hallucinations. These failures typically stem from two sources: data-driven hallucinations and reasoning-driven hallucinations. However, existing detection methods usually address only one source and rely on task-specific heuristics, limiting their generalization to complex scenarios. To overcome these limitations, we introduce the Hallucination Risk Bound, a unified theoretical framework that formally decomposes hallucination risk into data-driven and reasoning-driven components, linked respectively to training-time mismatches and inference-time instabilities. This provides a principled foundation for analyzing how hallucinations emerge and evolve. Building on this foundation, we introduce HalluGuard, an NTK-based score that leverages the induced geometry and captured representations of the NTK to jointly identify data-driven and reasoning-driven hallucinations. We evaluate HalluGuard on 10 diverse benchmarks, 11 competitive baselines, and 9 popular LLM backbones, consistently achieving state-of-the-art performance in detecting diverse forms of LLM hallucinations.

HalluGuard: Desmistificando Alucinações Baseadas em Dados e em Raciocínio em LLMs

HalluGuard: Demystifying Data-Driven and Reasoning-Driven Hallucinations in LLMs

Resumo

Support