ChatPaper.aiChatPaper

HalluGuard : Modèles de raisonnement de petite taille fondés sur des preuves pour atténuer les hallucinations dans la génération augmentée par la récupération

HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation

October 1, 2025
papers.authors: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI

papers.abstract

Les grands modèles de langage (LLMs) excellent dans de nombreuses tâches de traitement du langage naturel (NLP), mais restent sujets aux hallucinations, limitant la confiance dans leurs applications réelles. Nous présentons HalluGuard, un petit modèle de raisonnement (SRM) de 4 milliards de paramètres conçu pour atténuer les hallucinations dans la génération augmentée par récupération (RAG). HalluGuard classe les paires document-assertion comme étant fondées ou hallucinées et produit des justifications fondées sur des preuves pour assurer la transparence. Notre approche combine (i) un ensemble de données synthétique indépendant du domaine, dérivé de FineWeb et affiné par une curation en plusieurs étapes et une réforme des données, (ii) des assertions synthétiques fondées et hallucinées, et (iii) un réglage fin basé sur les préférences avec l'optimisation des préférences par rapport aux cotes pour distiller le raisonnement des grands modèles dans une architecture plus petite. Sur le sous-ensemble RAGTruth du benchmark LLM-AggreFact, HalluGuard atteint une précision équilibrée (BAcc) de 84,0%, rivalisant avec des modèles spécialisés tels que MiniCheck (7B ; 84,0%) et Granite Guardian 3.3 (8B ; 82,2%) tout en utilisant environ la moitié de leurs paramètres. Sur l'ensemble du benchmark, il atteint une BAcc de 75,7%, égalant des LLMs généralistes plus grands comme GPT-4o (75,9%). Nous publierons HalluGuard et les ensembles de données sous licence Apache 2.0 après acceptation.
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to hallucinations, limiting trust in real-world applications. We present HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies document-claim pairs as grounded or hallucinated and produces evidence-grounded justifications for transparency. Our approach combines (i) a domain-agnostic synthetic dataset derived from FineWeb and refined through multi-stage curation and data reformation, (ii) synthetic grounded and hallucinated claims, and (iii) preference-based fine-tuning with Odds Ratio Preference Optimization to distill large-model reasoning into a smaller backbone. On the RAGTruth subset of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy (BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian 3.3 (8B; 82.2%) while using roughly half their parameters. Over the full benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon acceptance.
PDF02October 8, 2025