Insegnare con le bugie: Curriculum DPO su negativi sintetici per il rilevamento di allucinazioni

Abstract

Allineare i grandi modelli linguistici (LLM) per rilevare accuratamente le allucinazioni rimane una sfida significativa a causa della natura sofisticata del testo allucinato. Riconoscendo che i campioni allucinati tipicamente presentano una qualità ingannevole superiore rispetto ai tradizionali campioni negativi, utilizziamo queste allucinazioni accuratamente progettate come esempi negativi nel processo di allineamento DPO. Il nostro metodo incorpora una strategia di apprendimento curriculare, passando gradualmente dall'addestramento su campioni più semplici, identificati in base alla maggiore riduzione dei punteggi di probabilità da modelli di verifica dei fatti indipendenti, a campioni progressivamente più difficili. Questa scalabilità strutturata della difficoltà garantisce un apprendimento stabile e incrementale. La valutazione sperimentale dimostra che i nostri modelli HaluCheck, addestrati con l'approccio DPO curriculare e campioni negativi di alta qualità, migliorano significativamente le prestazioni del modello su varie metriche, raggiungendo miglioramenti fino al 24% su benchmark difficili come MedHallu e HaluEval. Inoltre, i modelli HaluCheck dimostrano robustezza in contesti zero-shot, superando significativamente modelli all'avanguardia più grandi su vari benchmark.

English

Aligning large language models (LLMs) to accurately detect hallucinations remains a significant challenge due to the sophisticated nature of hallucinated text. Recognizing that hallucinated samples typically exhibit higher deceptive quality than traditional negative samples, we use these carefully engineered hallucinations as negative examples in the DPO alignment procedure. Our method incorporates a curriculum learning strategy, gradually transitioning the training from easier samples, identified based on the greatest reduction in probability scores from independent fact checking models, to progressively harder ones. This structured difficulty scaling ensures stable and incremental learning. Experimental evaluation demonstrates that our HaluCheck models, trained with curriculum DPO approach and high quality negative samples, significantly improves model performance across various metrics, achieving improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval. Additionally, HaluCheck models demonstrate robustness in zero-shot settings, significantly outperforming larger state-of-the-art models across various benchmarks.

Insegnare con le bugie: Curriculum DPO su negativi sintetici per il rilevamento di allucinazioni

Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection

Abstract

Support