HalluGuard: Modelos de Razonamiento Pequeños Basados en Evidencias para Mitigar Alucinaciones en la Generación Aumentada por Recuperación
HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
October 1, 2025
Autores: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI
Resumen
Los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) destacan en muchas tareas de Procesamiento del Lenguaje Natural (NLP), pero siguen siendo propensos a alucinaciones, lo que limita la confianza en aplicaciones del mundo real. Presentamos HalluGuard, un Modelo de Razonamiento Pequeño (SRM) de 4B parámetros diseñado para mitigar alucinaciones en la Generación Aumentada por Recuperación (RAG). HalluGuard clasifica pares de documento-afirmación como fundamentados o alucinados y produce justificaciones basadas en evidencia para garantizar la transparencia. Nuestro enfoque combina (i) un conjunto de datos sintético agnóstico al dominio derivado de FineWeb y refinado mediante una curación en múltiples etapas y reformulación de datos, (ii) afirmaciones sintéticas fundamentadas y alucinadas, y (iii) ajuste fino basado en preferencias con Optimización de Preferencias de Razón de Probabilidades para destilar el razonamiento de modelos grandes en una arquitectura más pequeña. En el subconjunto RAGTruth del benchmark LLM-AggreFact, HalluGuard alcanza un 84.0% de precisión equilibrada (BAcc), rivalizando con modelos especializados como MiniCheck (7B; 84.0%) y Granite Guardian 3.3 (8B; 82.2%) mientras utiliza aproximadamente la mitad de sus parámetros. En el benchmark completo, logra un 75.7% de BAcc, igualando a LLMs de propósito general más grandes como GPT-4o (75.9%). Publicaremos HalluGuard y los conjuntos de datos bajo la licencia Apache 2.0 tras su aceptación.
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to
hallucinations, limiting trust in real-world applications. We present
HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating
hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies
document-claim pairs as grounded or hallucinated and produces evidence-grounded
justifications for transparency. Our approach combines (i) a domain-agnostic
synthetic dataset derived from FineWeb and refined through multi-stage curation
and data reformation, (ii) synthetic grounded and hallucinated claims, and
(iii) preference-based fine-tuning with Odds Ratio Preference Optimization to
distill large-model reasoning into a smaller backbone. On the RAGTruth subset
of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy
(BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian
3.3 (8B; 82.2%) while using roughly half their parameters. Over the full
benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as
GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon
acceptance.