Enseigner avec des mensonges : DPO de curriculum sur des négatifs synthétiques pour la détection d'hallucinations
Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
May 23, 2025
Auteurs: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI
Résumé
L'alignement des grands modèles de langage (LLM) pour détecter avec précision les hallucinations reste un défi majeur en raison de la nature sophistiquée des textes hallucinés. Conscients que les échantillons hallucinés présentent généralement une qualité trompeuse supérieure à celle des échantillons négatifs traditionnels, nous utilisons ces hallucinations soigneusement conçues comme exemples négatifs dans la procédure d'alignement DPO. Notre méthode intègre une stratégie d'apprentissage curriculaire, passant progressivement de l'entraînement sur des échantillons plus faciles, identifiés par la plus forte réduction des scores de probabilité des modèles de vérification des faits indépendants, à des échantillons de plus en plus difficiles. Cette gradation structurée de la difficulté assure un apprentissage stable et progressif. L'évaluation expérimentale montre que nos modèles HaluCheck, entraînés avec l'approche DPO curriculaire et des échantillons négatifs de haute qualité, améliorent significativement les performances du modèle sur diverses métriques, atteignant des améliorations allant jusqu'à 24 % sur des benchmarks difficiles comme MedHallu et HaluEval. De plus, les modèles HaluCheck démontrent une robustesse en contexte zero-shot, surpassant significativement les modèles de pointe plus grands sur divers benchmarks.
English
Aligning large language models (LLMs) to accurately detect hallucinations
remains a significant challenge due to the sophisticated nature of hallucinated
text. Recognizing that hallucinated samples typically exhibit higher deceptive
quality than traditional negative samples, we use these carefully engineered
hallucinations as negative examples in the DPO alignment procedure. Our method
incorporates a curriculum learning strategy, gradually transitioning the
training from easier samples, identified based on the greatest reduction in
probability scores from independent fact checking models, to progressively
harder ones. This structured difficulty scaling ensures stable and incremental
learning. Experimental evaluation demonstrates that our HaluCheck models,
trained with curriculum DPO approach and high quality negative samples,
significantly improves model performance across various metrics, achieving
improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval.
Additionally, HaluCheck models demonstrate robustness in zero-shot settings,
significantly outperforming larger state-of-the-art models across various
benchmarks.Summary
AI-Generated Summary