HalluGuard: 検索拡張生成における幻覚を軽減するためのエビデンスに基づく小規模推論モデル
HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
October 1, 2025
著者: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI
要旨
大規模言語モデル(LLMs)は多くの自然言語処理(NLP)タスクにおいて優れた性能を発揮するが、依然として幻覚(hallucination)が発生しやすく、実世界での応用における信頼性が制限されている。本論文では、Retrieval-Augmented Generation(RAG)における幻覚を軽減するための4Bパラメータの小型推論モデル(SRM)であるHalluGuardを提案する。HalluGuardは、ドキュメントと主張のペアを「根拠のあるもの」または「幻覚」として分類し、透明性のための根拠に基づく説明を生成する。我々のアプローチは、(i) FineWebから派生し、多段階のキュレーションとデータ再構成を経て洗練されたドメイン非依存の合成データセット、(ii) 合成された根拠のある主張と幻覚的な主張、(iii) オッズ比選好最適化(Odds Ratio Preference Optimization)を用いた選好ベースのファインチューニングにより、大規模モデルの推論を小型のバックボーンに蒸留することを組み合わせている。LLM-AggreFactベンチマークのRAGTruthサブセットにおいて、HalluGuardは84.0%のバランス精度(BAcc)を達成し、MiniCheck(7B; 84.0%)やGranite Guardian 3.3(8B; 82.2%)といった専門モデルと同等の性能を示しながら、パラメータ数を約半分に抑えている。また、ベンチマーク全体では75.7%のBAccを達成し、GPT-4o(75.9%)などの大規模汎用LLMと同等の性能を発揮する。HalluGuardとデータセットは、受理後Apache 2.0ライセンスの下で公開する予定である。
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to
hallucinations, limiting trust in real-world applications. We present
HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating
hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies
document-claim pairs as grounded or hallucinated and produces evidence-grounded
justifications for transparency. Our approach combines (i) a domain-agnostic
synthetic dataset derived from FineWeb and refined through multi-stage curation
and data reformation, (ii) synthetic grounded and hallucinated claims, and
(iii) preference-based fine-tuning with Odds Ratio Preference Optimization to
distill large-model reasoning into a smaller backbone. On the RAGTruth subset
of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy
(BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian
3.3 (8B; 82.2%) while using roughly half their parameters. Over the full
benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as
GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon
acceptance.