ChatPaper.aiChatPaper

거짓으로 가르치기: 환각 탐지를 위한 합성 부정적 데이터에 대한 커리큘럼 DPO

Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection

May 23, 2025
저자: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI

초록

대규모 언어 모델(LLM)이 환각(hallucination)을 정확하게 탐지하도록 정렬하는 것은 환각 텍스트의 복잡한 특성으로 인해 여전히 중요한 과제로 남아 있습니다. 환각 샘플이 전통적인 부정 샘플보다 더 높은 기만적 품질을 보인다는 점을 인식하여, 우리는 이러한 신중하게 설계된 환각을 DPO 정렬 절차에서 부정 예제로 사용합니다. 우리의 방법은 커리큘럼 학습 전략을 통합하여, 독립적인 사실 확인 모델에서 확률 점수가 가장 크게 감소한 쉬운 샘플에서 점점 더 어려운 샘플로 점진적으로 훈련을 전환합니다. 이러한 구조화된 난이도 조정은 안정적이고 점진적인 학습을 보장합니다. 실험 평가 결과, 커리큘럼 DPO 접근법과 고품질 부정 샘플로 훈련된 HaluCheck 모델은 다양한 메트릭에서 모델 성능을 크게 향상시켰으며, MedHallu 및 HaluEval과 같은 어려운 벤치마크에서 최대 24%의 성능 향상을 달성했습니다. 또한, HaluCheck 모델은 제로샷 설정에서도 강건성을 보여주며, 다양한 벤치마크에서 더 큰 최첨단 모델을 크게 능가하는 성능을 보였습니다.
English
Aligning large language models (LLMs) to accurately detect hallucinations remains a significant challenge due to the sophisticated nature of hallucinated text. Recognizing that hallucinated samples typically exhibit higher deceptive quality than traditional negative samples, we use these carefully engineered hallucinations as negative examples in the DPO alignment procedure. Our method incorporates a curriculum learning strategy, gradually transitioning the training from easier samples, identified based on the greatest reduction in probability scores from independent fact checking models, to progressively harder ones. This structured difficulty scaling ensures stable and incremental learning. Experimental evaluation demonstrates that our HaluCheck models, trained with curriculum DPO approach and high quality negative samples, significantly improves model performance across various metrics, achieving improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval. Additionally, HaluCheck models demonstrate robustness in zero-shot settings, significantly outperforming larger state-of-the-art models across various benchmarks.

Summary

AI-Generated Summary

PDF132May 26, 2025