Insegnare con le bugie: Curriculum DPO su negativi sintetici per il rilevamento di allucinazioni
Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
May 23, 2025
Autori: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI
Abstract
Allineare i grandi modelli linguistici (LLM) per rilevare accuratamente le allucinazioni rimane una sfida significativa a causa della natura sofisticata del testo allucinato. Riconoscendo che i campioni allucinati tipicamente presentano una qualità ingannevole superiore rispetto ai tradizionali campioni negativi, utilizziamo queste allucinazioni accuratamente progettate come esempi negativi nel processo di allineamento DPO. Il nostro metodo incorpora una strategia di apprendimento curriculare, passando gradualmente dall'addestramento su campioni più semplici, identificati in base alla maggiore riduzione dei punteggi di probabilità da modelli di verifica dei fatti indipendenti, a campioni progressivamente più difficili. Questa scalabilità strutturata della difficoltà garantisce un apprendimento stabile e incrementale. La valutazione sperimentale dimostra che i nostri modelli HaluCheck, addestrati con l'approccio DPO curriculare e campioni negativi di alta qualità, migliorano significativamente le prestazioni del modello su varie metriche, raggiungendo miglioramenti fino al 24% su benchmark difficili come MedHallu e HaluEval. Inoltre, i modelli HaluCheck dimostrano robustezza in contesti zero-shot, superando significativamente modelli all'avanguardia più grandi su vari benchmark.
English
Aligning large language models (LLMs) to accurately detect hallucinations
remains a significant challenge due to the sophisticated nature of hallucinated
text. Recognizing that hallucinated samples typically exhibit higher deceptive
quality than traditional negative samples, we use these carefully engineered
hallucinations as negative examples in the DPO alignment procedure. Our method
incorporates a curriculum learning strategy, gradually transitioning the
training from easier samples, identified based on the greatest reduction in
probability scores from independent fact checking models, to progressively
harder ones. This structured difficulty scaling ensures stable and incremental
learning. Experimental evaluation demonstrates that our HaluCheck models,
trained with curriculum DPO approach and high quality negative samples,
significantly improves model performance across various metrics, achieving
improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval.
Additionally, HaluCheck models demonstrate robustness in zero-shot settings,
significantly outperforming larger state-of-the-art models across various
benchmarks.