ChatPaper.aiChatPaper

Lesgeven met leugens: Curriculum DPO op synthetische negatieven voor het detecteren van hallucinaties

Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection

May 23, 2025
Auteurs: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI

Samenvatting

Het afstemmen van grote taalmodellen (LLM's) om hallucinaties nauwkeurig te detecteren blijft een aanzienlijke uitdaging vanwege de geavanceerde aard van gehallucineerde tekst. Erkennend dat gehallucineerde voorbeelden doorgaans een hogere misleidende kwaliteit vertonen dan traditionele negatieve voorbeelden, gebruiken we deze zorgvuldig geconstrueerde hallucinaties als negatieve voorbeelden in het DPO-afstemmingsproces. Onze methode integreert een curriculumlerenstrategie, waarbij de training geleidelijk overgaat van eenvoudigere voorbeelden, geïdentificeerd op basis van de grootste reductie in waarschijnlijkheidsscores van onafhankelijke feitencontrolemodellen, naar progressief moeilijkere voorbeelden. Deze gestructureerde moeilijkheidsgradatie zorgt voor stabiel en geleidelijk leren. Experimentele evaluatie toont aan dat onze HaluCheck-modellen, getraind met de curriculum DPO-aanpak en hoogwaardige negatieve voorbeelden, de modelprestaties aanzienlijk verbeteren op verschillende metrieken, met verbeteringen tot 24% op uitdagende benchmarks zoals MedHallu en HaluEval. Daarnaast tonen HaluCheck-modellen robuustheid in zero-shot-instellingen en presteren ze significant beter dan grotere state-of-the-art-modellen op verschillende benchmarks.
English
Aligning large language models (LLMs) to accurately detect hallucinations remains a significant challenge due to the sophisticated nature of hallucinated text. Recognizing that hallucinated samples typically exhibit higher deceptive quality than traditional negative samples, we use these carefully engineered hallucinations as negative examples in the DPO alignment procedure. Our method incorporates a curriculum learning strategy, gradually transitioning the training from easier samples, identified based on the greatest reduction in probability scores from independent fact checking models, to progressively harder ones. This structured difficulty scaling ensures stable and incremental learning. Experimental evaluation demonstrates that our HaluCheck models, trained with curriculum DPO approach and high quality negative samples, significantly improves model performance across various metrics, achieving improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval. Additionally, HaluCheck models demonstrate robustness in zero-shot settings, significantly outperforming larger state-of-the-art models across various benchmarks.
PDF152May 26, 2025