HalluGuard: Evidenzbasierte kleine Reasoning-Modelle zur Reduzierung von Halluzinationen in Retrieval-Augmented Generation

papers.abstract

Große Sprachmodelle (LLMs) glänzen in vielen NLP-Aufgaben, bleiben jedoch anfällig für Halluzinationen, was das Vertrauen in reale Anwendungen einschränkt. Wir stellen HalluGuard vor, ein Small Reasoning Model (SRM) mit 4 Milliarden Parametern, das Halluzinationen in Retrieval-Augmented Generation (RAG) reduziert. HalluGuard klassifiziert Dokument-Aussage-Paare als fundiert oder halluziniert und liefert evidenzbasierte Begründungen für Transparenz. Unser Ansatz kombiniert (i) einen domänenunabhängigen synthetischen Datensatz, der aus FineWeb abgeleitet und durch mehrstufige Kuratierung und Datenreformierung verfeinert wurde, (ii) synthetische fundierte und halluzinierte Aussagen sowie (iii) präferenzbasiertes Fine-Tuning mit Odds Ratio Preference Optimization, um die Argumentation großer Modelle in eine kleinere Architektur zu destillieren. Auf der RAGTruth-Teilmenge des LLM-AggreFact-Benchmarks erreicht HalluGuard eine ausgewogene Genauigkeit (BAcc) von 84,0 % und steht damit spezialisierten Modellen wie MiniCheck (7B; 84,0 %) und Granite Guardian 3.3 (8B; 82,2 %) in nichts nach, obwohl es etwa halb so viele Parameter verwendet. Über den gesamten Benchmark hinweg erreicht es eine BAcc von 75,7 % und hält mit größeren allgemeinen LLMs wie GPT-4o (75,9 %) Schritt. Wir werden HalluGuard und die Datensätze unter Apache 2.0 nach der Annahme veröffentlichen.

English

Large Language Models (LLMs) excel in many NLP tasks but remain prone to hallucinations, limiting trust in real-world applications. We present HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies document-claim pairs as grounded or hallucinated and produces evidence-grounded justifications for transparency. Our approach combines (i) a domain-agnostic synthetic dataset derived from FineWeb and refined through multi-stage curation and data reformation, (ii) synthetic grounded and hallucinated claims, and (iii) preference-based fine-tuning with Odds Ratio Preference Optimization to distill large-model reasoning into a smaller backbone. On the RAGTruth subset of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy (BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian 3.3 (8B; 82.2%) while using roughly half their parameters. Over the full benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon acceptance.

HalluGuard: Evidenzbasierte kleine Reasoning-Modelle zur Reduzierung von Halluzinationen in Retrieval-Augmented Generation

HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation

papers.abstract

Support