HalluGuard: Modelli di Ragionamento Piccoli e Basati su Evidenze per Mitigare le Allucinazioni nella Generazione Aumentata dal Recupero di Informazioni
HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
October 1, 2025
Autori: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI
Abstract
I Large Language Model (LLM) eccellono in molti compiti di NLP, ma rimangono inclini a fenomeni di allucinazione, limitando la fiducia nelle applicazioni reali. Presentiamo HalluGuard, un Small Reasoning Model (SRM) da 4 miliardi di parametri progettato per mitigare le allucinazioni nel Retrieval-Augmented Generation (RAG). HalluGuard classifica le coppie documento-affermazione come fondate o allucinate e produce giustificazioni basate su evidenze per garantire trasparenza. Il nostro approccio combina (i) un dataset sintetico agnostico al dominio derivato da FineWeb e raffinato attraverso una cura in più fasi e una riformazione dei dati, (ii) affermazioni sintetiche fondate e allucinate, e (iii) un fine-tuning basato su preferenze con Odds Ratio Preference Optimization per distillare il ragionamento di modelli più grandi in un'architettura più compatta. Sul sottoinsieme RAGTruth del benchmark LLM-AggreFact, HalluGuard raggiunge un'accuratezza bilanciata (BAcc) dell'84,0%, competendo con modelli specializzati come MiniCheck (7B; 84,0%) e Granite Guardian 3.3 (8B; 82,2%) pur utilizzando circa la metà dei loro parametri. Sull'intero benchmark, raggiunge un BAcc del 75,7%, eguagliando LLM generalisti più grandi come GPT-4o (75,9%). Rilasceremo HalluGuard e i dataset sotto licenza Apache 2.0 in caso di accettazione.
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to
hallucinations, limiting trust in real-world applications. We present
HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating
hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies
document-claim pairs as grounded or hallucinated and produces evidence-grounded
justifications for transparency. Our approach combines (i) a domain-agnostic
synthetic dataset derived from FineWeb and refined through multi-stage curation
and data reformation, (ii) synthetic grounded and hallucinated claims, and
(iii) preference-based fine-tuning with Odds Ratio Preference Optimization to
distill large-model reasoning into a smaller backbone. On the RAGTruth subset
of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy
(BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian
3.3 (8B; 82.2%) while using roughly half their parameters. Over the full
benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as
GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon
acceptance.