嘘を用いた教育:幻覚検出のための合成ネガティブを用いたカリキュラムDPO
Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
May 23, 2025
著者: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI
要旨
大規模言語モデル(LLM)を整合させ、幻覚テキストを正確に検出することは、幻覚テキストの高度な性質により依然として重要な課題です。幻覚サンプルが従来のネガティブサンプルよりも高い欺瞞的品質を示すことを認識し、私たちはこれらの注意深く設計された幻覚をDPO整合プロセスのネガティブ例として使用します。私たちの手法はカリキュラム学習戦略を組み込んでおり、独立した事実確認モデルからの確率スコアの最大減少に基づいて識別された容易なサンプルから、徐々に難しいサンプルへと訓練を移行します。この構造化された難易度スケーリングにより、安定した漸進的な学習が保証されます。実験的評価により、カリキュラムDPOアプローチと高品質なネガティブサンプルを用いて訓練されたHaluCheckモデルが、MedHalluやHaluEvalなどの難しいベンチマークで最大24%の改善を達成し、様々な指標でモデル性能を大幅に向上させることが示されています。さらに、HaluCheckモデルはゼロショット設定においても堅牢性を示し、様々なベンチマークで最新の大規模モデルを大幅に上回る性能を発揮します。
English
Aligning large language models (LLMs) to accurately detect hallucinations
remains a significant challenge due to the sophisticated nature of hallucinated
text. Recognizing that hallucinated samples typically exhibit higher deceptive
quality than traditional negative samples, we use these carefully engineered
hallucinations as negative examples in the DPO alignment procedure. Our method
incorporates a curriculum learning strategy, gradually transitioning the
training from easier samples, identified based on the greatest reduction in
probability scores from independent fact checking models, to progressively
harder ones. This structured difficulty scaling ensures stable and incremental
learning. Experimental evaluation demonstrates that our HaluCheck models,
trained with curriculum DPO approach and high quality negative samples,
significantly improves model performance across various metrics, achieving
improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval.
Additionally, HaluCheck models demonstrate robustness in zero-shot settings,
significantly outperforming larger state-of-the-art models across various
benchmarks.Summary
AI-Generated Summary