HalluGuard: Evidenzbasierte kleine Reasoning-Modelle zur Reduzierung von Halluzinationen in Retrieval-Augmented Generation
HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
October 1, 2025
papers.authors: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) glänzen in vielen NLP-Aufgaben, bleiben jedoch anfällig für Halluzinationen, was das Vertrauen in reale Anwendungen einschränkt. Wir stellen HalluGuard vor, ein Small Reasoning Model (SRM) mit 4 Milliarden Parametern, das Halluzinationen in Retrieval-Augmented Generation (RAG) reduziert. HalluGuard klassifiziert Dokument-Aussage-Paare als fundiert oder halluziniert und liefert evidenzbasierte Begründungen für Transparenz. Unser Ansatz kombiniert (i) einen domänenunabhängigen synthetischen Datensatz, der aus FineWeb abgeleitet und durch mehrstufige Kuratierung und Datenreformierung verfeinert wurde, (ii) synthetische fundierte und halluzinierte Aussagen sowie (iii) präferenzbasiertes Fine-Tuning mit Odds Ratio Preference Optimization, um die Argumentation großer Modelle in eine kleinere Architektur zu destillieren. Auf der RAGTruth-Teilmenge des LLM-AggreFact-Benchmarks erreicht HalluGuard eine ausgewogene Genauigkeit (BAcc) von 84,0 % und steht damit spezialisierten Modellen wie MiniCheck (7B; 84,0 %) und Granite Guardian 3.3 (8B; 82,2 %) in nichts nach, obwohl es etwa halb so viele Parameter verwendet. Über den gesamten Benchmark hinweg erreicht es eine BAcc von 75,7 % und hält mit größeren allgemeinen LLMs wie GPT-4o (75,9 %) Schritt. Wir werden HalluGuard und die Datensätze unter Apache 2.0 nach der Annahme veröffentlichen.
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to
hallucinations, limiting trust in real-world applications. We present
HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating
hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies
document-claim pairs as grounded or hallucinated and produces evidence-grounded
justifications for transparency. Our approach combines (i) a domain-agnostic
synthetic dataset derived from FineWeb and refined through multi-stage curation
and data reformation, (ii) synthetic grounded and hallucinated claims, and
(iii) preference-based fine-tuning with Odds Ratio Preference Optimization to
distill large-model reasoning into a smaller backbone. On the RAGTruth subset
of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy
(BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian
3.3 (8B; 82.2%) while using roughly half their parameters. Over the full
benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as
GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon
acceptance.