Lehren mit Lügen: Curriculum DPO für synthetische Negative zur Halluzinationserkennung

papers.abstract

Die Ausrichtung großer Sprachmodelle (LLMs) zur präzisen Erkennung von Halluzinationen bleibt aufgrund der komplexen Natur halluzinierter Texte eine bedeutende Herausforderung. Unter der Annahme, dass halluzinierte Proben typischerweise eine höhere täuschende Qualität aufweisen als traditionelle negative Proben, verwenden wir diese sorgfältig konstruierten Halluzinationen als negative Beispiele im DPO-Ausrichtungsverfahren. Unser Ansatz integriert eine Curriculum-Learning-Strategie, bei der das Training schrittweise von einfacheren Proben, die anhand der stärksten Reduktion von Wahrscheinlichkeitswerten durch unabhängige Faktenprüfungsmodelle identifiziert werden, zu zunehmend schwierigeren Proben übergeht. Diese strukturierte Schwierigkeitssteigerung gewährleistet ein stabiles und schrittweises Lernen. Die experimentelle Auswertung zeigt, dass unsere HaluCheck-Modelle, die mit dem Curriculum-DPO-Ansatz und hochwertigen negativen Proben trainiert wurden, die Modellleistung über verschiedene Metriken hinweg signifikant verbessern und Verbesserungen von bis zu 24 % auf anspruchsvollen Benchmarks wie MedHallu und HaluEval erzielen. Darüber hinaus demonstrieren HaluCheck-Modelle Robustheit in Zero-Shot-Szenarien und übertreffen größere state-of-the-art Modelle auf verschiedenen Benchmarks deutlich.

English

Aligning large language models (LLMs) to accurately detect hallucinations remains a significant challenge due to the sophisticated nature of hallucinated text. Recognizing that hallucinated samples typically exhibit higher deceptive quality than traditional negative samples, we use these carefully engineered hallucinations as negative examples in the DPO alignment procedure. Our method incorporates a curriculum learning strategy, gradually transitioning the training from easier samples, identified based on the greatest reduction in probability scores from independent fact checking models, to progressively harder ones. This structured difficulty scaling ensures stable and incremental learning. Experimental evaluation demonstrates that our HaluCheck models, trained with curriculum DPO approach and high quality negative samples, significantly improves model performance across various metrics, achieving improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval. Additionally, HaluCheck models demonstrate robustness in zero-shot settings, significantly outperforming larger state-of-the-art models across various benchmarks.

Lehren mit Lügen: Curriculum DPO für synthetische Negative zur Halluzinationserkennung

Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection

papers.abstract

Support