HalluGuard: Bewijsgestuurde kleine redeneermodellen om hallucinaties in retrieval-augmented generatie te verminderen
HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
October 1, 2025
Auteurs: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI
Samenvatting
Large Language Models (LLMs) blinken uit in veel NLP-taken, maar blijven vatbaar voor hallucinaties, wat het vertrouwen in real-world toepassingen beperkt. Wij presenteren HalluGuard, een Small Reasoning Model (SRM) met 4B parameters, gericht op het verminderen van hallucinaties in Retrieval-Augmented Generation (RAG). HalluGuard classificeert document-claim paren als gegrond of gehallucineerd en produceert op bewijs gebaseerde rechtvaardigingen voor transparantie. Onze aanpak combineert (i) een domein-agnostische synthetische dataset afgeleid van FineWeb en verfijnd door middel van meerfasige curatie en datahervorming, (ii) synthetische gegronde en gehallucineerde claims, en (iii) voorkeursgebaseerde fine-tuning met Odds Ratio Preference Optimization om de redenering van grote modellen te destilleren in een kleiner backbone model. Op de RAGTruth subset van de LLM-AggreFact benchmark behaalt HalluGuard een gebalanceerde nauwkeurigheid (BAcc) van 84.0%, wat concurreert met gespecialiseerde modellen zoals MiniCheck (7B; 84.0%) en Granite Guardian 3.3 (8B; 82.2%) terwijl het ongeveer de helft van hun parameters gebruikt. Over de volledige benchmark bereikt het een BAcc van 75.7%, wat vergelijkbaar is met grotere general-purpose LLMs zoals GPT-4o (75.9%). Wij zullen HalluGuard en de datasets vrijgeven onder Apache 2.0 na acceptatie.
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to
hallucinations, limiting trust in real-world applications. We present
HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating
hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies
document-claim pairs as grounded or hallucinated and produces evidence-grounded
justifications for transparency. Our approach combines (i) a domain-agnostic
synthetic dataset derived from FineWeb and refined through multi-stage curation
and data reformation, (ii) synthetic grounded and hallucinated claims, and
(iii) preference-based fine-tuning with Odds Ratio Preference Optimization to
distill large-model reasoning into a smaller backbone. On the RAGTruth subset
of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy
(BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian
3.3 (8B; 82.2%) while using roughly half their parameters. Over the full
benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as
GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon
acceptance.