LUMINA: Обнаружение галлюцинаций в системах RAG с использованием сигналов контекста и знаний
LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals
September 26, 2025
Авторы: Min-Hsuan Yeh, Yixuan Li, Tanwi Mallick
cs.AI
Аннотация
Генерация с использованием извлеченных данных (Retrieval-Augmented Generation, RAG) направлена на снижение галлюцинаций в больших языковых моделях (LLM) за счет привязки ответов к извлеченным документам. Однако LLM на основе RAG всё ещё генерируют галлюцинации, даже когда предоставлены правильный и достаточный контекст. Растущее количество исследований предполагает, что это связано с дисбалансом между тем, как модели используют внешний контекст и свои внутренние знания, и несколько подходов пытались количественно оценить эти сигналы для обнаружения галлюцинаций. Однако существующие методы требуют тщательной настройки гиперпараметров, что ограничивает их универсальность. Мы предлагаем LUMINA, новую структуру, которая обнаруживает галлюцинации в системах RAG через сигналы контекста и знаний: использование внешнего контекста количественно оценивается через распределительное расстояние, а использование внутренних знаний измеряется путем отслеживания того, как предсказанные токены изменяются на разных слоях трансформера. Мы также вводим структуру для статистической проверки этих измерений. Эксперименты на стандартных тестах для галлюцинаций в RAG и четырех открытых LLM показывают, что LUMINA достигает стабильно высоких показателей AUROC и AUPRC, превосходя предыдущие методы, основанные на использовании, на до +13% AUROC на HalluRAG. Более того, LUMINA остается устойчивой при ослабленных предположениях о качестве извлечения и совпадении моделей, предлагая как эффективность, так и практичность.
English
Retrieval-Augmented Generation (RAG) aims to mitigate hallucinations in large
language models (LLMs) by grounding responses in retrieved documents. Yet,
RAG-based LLMs still hallucinate even when provided with correct and sufficient
context. A growing line of work suggests that this stems from an imbalance
between how models use external context and their internal knowledge, and
several approaches have attempted to quantify these signals for hallucination
detection. However, existing methods require extensive hyperparameter tuning,
limiting their generalizability. We propose LUMINA, a novel framework that
detects hallucinations in RAG systems through context-knowledge signals:
external context utilization is quantified via distributional distance, while
internal knowledge utilization is measured by tracking how predicted tokens
evolve across transformer layers. We further introduce a framework for
statistically validating these measurements. Experiments on common RAG
hallucination benchmarks and four open-source LLMs show that LUMINA achieves
consistently high AUROC and AUPRC scores, outperforming prior utilization-based
methods by up to +13% AUROC on HalluRAG. Moreover, LUMINA remains robust under
relaxed assumptions about retrieval quality and model matching, offering both
effectiveness and practicality.