LUMINA: Обнаружение галлюцинаций в системах RAG с использованием сигналов контекста и знаний

Аннотация

Генерация с использованием извлеченных данных (Retrieval-Augmented Generation, RAG) направлена на снижение галлюцинаций в больших языковых моделях (LLM) за счет привязки ответов к извлеченным документам. Однако LLM на основе RAG всё ещё генерируют галлюцинации, даже когда предоставлены правильный и достаточный контекст. Растущее количество исследований предполагает, что это связано с дисбалансом между тем, как модели используют внешний контекст и свои внутренние знания, и несколько подходов пытались количественно оценить эти сигналы для обнаружения галлюцинаций. Однако существующие методы требуют тщательной настройки гиперпараметров, что ограничивает их универсальность. Мы предлагаем LUMINA, новую структуру, которая обнаруживает галлюцинации в системах RAG через сигналы контекста и знаний: использование внешнего контекста количественно оценивается через распределительное расстояние, а использование внутренних знаний измеряется путем отслеживания того, как предсказанные токены изменяются на разных слоях трансформера. Мы также вводим структуру для статистической проверки этих измерений. Эксперименты на стандартных тестах для галлюцинаций в RAG и четырех открытых LLM показывают, что LUMINA достигает стабильно высоких показателей AUROC и AUPRC, превосходя предыдущие методы, основанные на использовании, на до +13% AUROC на HalluRAG. Более того, LUMINA остается устойчивой при ослабленных предположениях о качестве извлечения и совпадении моделей, предлагая как эффективность, так и практичность.

English

Retrieval-Augmented Generation (RAG) aims to mitigate hallucinations in large language models (LLMs) by grounding responses in retrieved documents. Yet, RAG-based LLMs still hallucinate even when provided with correct and sufficient context. A growing line of work suggests that this stems from an imbalance between how models use external context and their internal knowledge, and several approaches have attempted to quantify these signals for hallucination detection. However, existing methods require extensive hyperparameter tuning, limiting their generalizability. We propose LUMINA, a novel framework that detects hallucinations in RAG systems through context-knowledge signals: external context utilization is quantified via distributional distance, while internal knowledge utilization is measured by tracking how predicted tokens evolve across transformer layers. We further introduce a framework for statistically validating these measurements. Experiments on common RAG hallucination benchmarks and four open-source LLMs show that LUMINA achieves consistently high AUROC and AUPRC scores, outperforming prior utilization-based methods by up to +13% AUROC on HalluRAG. Moreover, LUMINA remains robust under relaxed assumptions about retrieval quality and model matching, offering both effectiveness and practicality.

LUMINA: Обнаружение галлюцинаций в системах RAG с использованием сигналов контекста и знаний

LUMINA: Detecting Hallucinations in RAG System with Context-Knowledge Signals

Аннотация

Support