HalluGuard: Основанные на доказательствах компактные модели рассуждений для снижения галлюцинаций в генерации, усиленной поиском
HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
October 1, 2025
Авторы: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI
Аннотация
Крупные языковые модели (LLM) демонстрируют высокие результаты во многих задачах обработки естественного языка (NLP), но остаются склонными к галлюцинациям, что ограничивает доверие к их применению в реальных сценариях. Мы представляем HalluGuard — малую модель рассуждений (SRM) с 4 миллиардами параметров, предназначенную для снижения галлюцинаций в генерации, усиленной поиском (RAG). HalluGuard классифицирует пары документ-утверждение как обоснованные или галлюцинированные и предоставляет прозрачные обоснования, основанные на доказательствах. Наш подход объединяет (i) синтетический доменно-независимый набор данных, созданный на основе FineWeb и улучшенный с помощью многоэтапной обработки и реформации данных, (ii) синтетические обоснованные и галлюцинированные утверждения, а также (iii) тонкую настройку на основе предпочтений с использованием оптимизации предпочтений по коэффициенту шансов (Odds Ratio Preference Optimization) для переноса рассуждений крупной модели в меньшую архитектуру. На подмножестве RAGTruth бенчмарка LLM-AggreFact HalluGuard достигает 84,0% сбалансированной точности (BAcc), конкурируя со специализированными моделями, такими как MiniCheck (7B; 84,0%) и Granite Guardian 3.3 (8B; 82,2%), при этом используя примерно вдвое меньше параметров. На полном бенчмарке модель достигает 75,7% BAcc, что сопоставимо с более крупными универсальными LLM, такими как GPT-4o (75,9%). Мы опубликуем HalluGuard и наборы данных под лицензией Apache 2.0 после принятия работы.
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to
hallucinations, limiting trust in real-world applications. We present
HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating
hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies
document-claim pairs as grounded or hallucinated and produces evidence-grounded
justifications for transparency. Our approach combines (i) a domain-agnostic
synthetic dataset derived from FineWeb and refined through multi-stage curation
and data reformation, (ii) synthetic grounded and hallucinated claims, and
(iii) preference-based fine-tuning with Odds Ratio Preference Optimization to
distill large-model reasoning into a smaller backbone. On the RAGTruth subset
of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy
(BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian
3.3 (8B; 82.2%) while using roughly half their parameters. Over the full
benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as
GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon
acceptance.