HalluGuard: 검증 기반 소형 추론 모델을 활용한 검색 증강 생성의 환각 현상 완화
HalluGuard: Evidence-Grounded Small Reasoning Models to Mitigate Hallucinations in Retrieval-Augmented Generation
October 1, 2025
저자: Loris Bergeron, Ioana Buhnila, Jérôme François, Radu State
cs.AI
초록
대형 언어 모델(LLMs)은 많은 자연어 처리(NLP) 작업에서 뛰어난 성능을 보이지만, 여전히 환각(hallucination) 문제에 취약하여 실제 응용에서 신뢰를 얻기 어렵습니다. 본 논문에서는 검색 증강 생성(Retrieval-Augmented Generation, RAG)에서의 환각 현상을 완화하기 위해 40억 개의 파라미터를 가진 소형 추론 모델(Small Reasoning Model, SRM)인 HalluGuard를 제안합니다. HalluGuard는 문서-주장 쌍을 근거가 있는 것과 환각으로 분류하고, 투명성을 위해 근거 기반의 정당화를 생성합니다. 우리의 접근 방식은 (i) FineWeb에서 도출된 도메인에 구애받지 않는 합성 데이터셋을 다단계 선별 및 데이터 재구성을 통해 정제하고, (ii) 근거가 있는 합성 주장과 환각 주장을 생성하며, (iii) Odds Ratio Preference Optimization을 사용한 선호도 기반 미세 조정을 통해 대형 모델의 추론 능력을 더 작은 백본 모델로 증류하는 것을 결합합니다. LLM-AggreFact 벤치마크의 RAGTruth 부분 집합에서 HalluGuard는 84.0%의 균형 정확도(BAcc)를 달성하여, MiniCheck(7B; 84.0%) 및 Granite Guardian 3.3(8B; 82.2%)와 같은 전용 모델과 경쟁하면서도 약 절반의 파라미터를 사용합니다. 전체 벤치마크에서는 75.7%의 BAcc를 달성하며, GPT-4o(75.9%)와 같은 더 큰 범용 LLM과 비슷한 성능을 보입니다. HalluGuard와 데이터셋은 승인 후 Apache 2.0 라이선스 하에 공개될 예정입니다.
English
Large Language Models (LLMs) excel in many NLP tasks but remain prone to
hallucinations, limiting trust in real-world applications. We present
HalluGuard, a 4B-parameter Small Reasoning Model (SRM) for mitigating
hallucinations in Retrieval-Augmented Generation (RAG). HalluGuard classifies
document-claim pairs as grounded or hallucinated and produces evidence-grounded
justifications for transparency. Our approach combines (i) a domain-agnostic
synthetic dataset derived from FineWeb and refined through multi-stage curation
and data reformation, (ii) synthetic grounded and hallucinated claims, and
(iii) preference-based fine-tuning with Odds Ratio Preference Optimization to
distill large-model reasoning into a smaller backbone. On the RAGTruth subset
of the LLM-AggreFact benchmark, HalluGuard achieves 84.0% balanced accuracy
(BAcc), rivaling specialized models, MiniCheck (7B; 84.0%) and Granite Guardian
3.3 (8B; 82.2%) while using roughly half their parameters. Over the full
benchmark it reaches 75.7% BAcc, matching larger general-purpose LLMs such as
GPT-4o (75.9%). We will release HalluGuard and datasets under Apache 2.0 upon
acceptance.