Lehren mit Lügen: Curriculum DPO für synthetische Negative zur Halluzinationserkennung
Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
May 23, 2025
Autoren: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI
Zusammenfassung
Die Ausrichtung großer Sprachmodelle (LLMs) zur präzisen Erkennung von Halluzinationen bleibt aufgrund der komplexen Natur halluzinierter Texte eine bedeutende Herausforderung. Unter der Annahme, dass halluzinierte Proben typischerweise eine höhere täuschende Qualität aufweisen als traditionelle negative Proben, verwenden wir diese sorgfältig konstruierten Halluzinationen als negative Beispiele im DPO-Ausrichtungsverfahren. Unser Ansatz integriert eine Curriculum-Learning-Strategie, bei der das Training schrittweise von einfacheren Proben, die anhand der stärksten Reduktion von Wahrscheinlichkeitswerten durch unabhängige Faktenprüfungsmodelle identifiziert werden, zu zunehmend schwierigeren Proben übergeht. Diese strukturierte Schwierigkeitssteigerung gewährleistet ein stabiles und schrittweises Lernen. Die experimentelle Auswertung zeigt, dass unsere HaluCheck-Modelle, die mit dem Curriculum-DPO-Ansatz und hochwertigen negativen Proben trainiert wurden, die Modellleistung über verschiedene Metriken hinweg signifikant verbessern und Verbesserungen von bis zu 24 % auf anspruchsvollen Benchmarks wie MedHallu und HaluEval erzielen. Darüber hinaus demonstrieren HaluCheck-Modelle Robustheit in Zero-Shot-Szenarien und übertreffen größere state-of-the-art Modelle auf verschiedenen Benchmarks deutlich.
English
Aligning large language models (LLMs) to accurately detect hallucinations
remains a significant challenge due to the sophisticated nature of hallucinated
text. Recognizing that hallucinated samples typically exhibit higher deceptive
quality than traditional negative samples, we use these carefully engineered
hallucinations as negative examples in the DPO alignment procedure. Our method
incorporates a curriculum learning strategy, gradually transitioning the
training from easier samples, identified based on the greatest reduction in
probability scores from independent fact checking models, to progressively
harder ones. This structured difficulty scaling ensures stable and incremental
learning. Experimental evaluation demonstrates that our HaluCheck models,
trained with curriculum DPO approach and high quality negative samples,
significantly improves model performance across various metrics, achieving
improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval.
Additionally, HaluCheck models demonstrate robustness in zero-shot settings,
significantly outperforming larger state-of-the-art models across various
benchmarks.Summary
AI-Generated Summary