LUMINA: Erkennung von Halluzinationen in RAG-Systemen durch Kontext-Wissens-Signale
LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals
September 26, 2025
papers.authors: Min-Hsuan Yeh, Yixuan Li, Tanwi Mallick
cs.AI
papers.abstract
Retrieval-Augmented Generation (RAG) zielt darauf ab, Halluzinationen in großen Sprachmodellen (LLMs) zu reduzieren, indem Antworten in abgerufenen Dokumenten verankert werden. Dennoch halluzinieren RAG-basierte LLMs weiterhin, selbst wenn korrekter und ausreichender Kontext bereitgestellt wird. Eine wachsende Forschungsrichtung deutet darauf hin, dass dies auf ein Ungleichgewicht zwischen der Nutzung externen Kontexts und dem internen Wissen der Modelle zurückzuführen ist, und mehrere Ansätze haben versucht, diese Signale zur Erkennung von Halluzinationen zu quantifizieren. Bisherige Methoden erfordern jedoch eine umfangreiche Hyperparameter-Optimierung, was ihre Generalisierbarkeit einschränkt. Wir stellen LUMINA vor, ein neuartiges Framework, das Halluzinationen in RAG-Systemen durch Kontext-Wissen-Signale erkennt: Die Nutzung externen Kontexts wird über die Verteilungsdistanz quantifiziert, während die Nutzung internen Wissens durch die Verfolgung der Entwicklung vorhergesagter Tokens über Transformer-Schichten gemessen wird. Darüber hinaus führen wir ein Framework zur statistischen Validierung dieser Messungen ein. Experimente auf gängigen RAG-Halluzinations-Benchmarks und vier Open-Source-LLMs zeigen, dass LUMINA durchweg hohe AUROC- und AUPRC-Werte erzielt und bisherige nutzungsbasierte Methoden auf HalluRAG um bis zu +13 % AUROC übertrifft. Zudem bleibt LUMINA robust unter gelockerten Annahmen zur Retrieval-Qualität und Modellabstimmung, was sowohl Effektivität als auch Praktikabilität bietet.
English
Retrieval-Augmented Generation (RAG) aims to mitigate hallucinations in large
language models (LLMs) by grounding responses in retrieved documents. Yet,
RAG-based LLMs still hallucinate even when provided with correct and sufficient
context. A growing line of work suggests that this stems from an imbalance
between how models use external context and their internal knowledge, and
several approaches have attempted to quantify these signals for hallucination
detection. However, existing methods require extensive hyperparameter tuning,
limiting their generalizability. We propose LUMINA, a novel framework that
detects hallucinations in RAG systems through context-knowledge signals:
external context utilization is quantified via distributional distance, while
internal knowledge utilization is measured by tracking how predicted tokens
evolve across transformer layers. We further introduce a framework for
statistically validating these measurements. Experiments on common RAG
hallucination benchmarks and four open-source LLMs show that LUMINA achieves
consistently high AUROC and AUPRC scores, outperforming prior utilization-based
methods by up to +13% AUROC on HalluRAG. Moreover, LUMINA remains robust under
relaxed assumptions about retrieval quality and model matching, offering both
effectiveness and practicality.