ChatPaper.aiChatPaper

Обучение с ложью: Curriculum DPO на синтетических негативах для обнаружения галлюцинаций

Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection

May 23, 2025
Авторы: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI

Аннотация

Согласование больших языковых моделей (LLM) для точного обнаружения галлюцинаций остается серьезной проблемой из-за сложной природы галлюцинированного текста. Учитывая, что галлюцинированные образцы обычно демонстрируют более высокую обманчивую качественность по сравнению с традиционными негативными образцами, мы используем эти тщательно сконструированные галлюцинации в качестве негативных примеров в процедуре согласования DPO. Наш метод включает стратегию обучения по учебному плану, постепенно переходя от более простых образцов, идентифицированных на основе наибольшего снижения вероятностных оценок независимых моделей проверки фактов, к более сложным. Такое структурированное масштабирование сложности обеспечивает стабильное и постепенное обучение. Экспериментальная оценка показывает, что наши модели HaluCheck, обученные с использованием подхода DPO с учебным планом и высококачественными негативными образцами, значительно улучшают производительность модели по различным метрикам, достигая улучшений до 24% на сложных тестах, таких как MedHallu и HaluEval. Кроме того, модели HaluCheck демонстрируют устойчивость в условиях zero-shot, значительно превосходя более крупные современные модели на различных тестах.
English
Aligning large language models (LLMs) to accurately detect hallucinations remains a significant challenge due to the sophisticated nature of hallucinated text. Recognizing that hallucinated samples typically exhibit higher deceptive quality than traditional negative samples, we use these carefully engineered hallucinations as negative examples in the DPO alignment procedure. Our method incorporates a curriculum learning strategy, gradually transitioning the training from easier samples, identified based on the greatest reduction in probability scores from independent fact checking models, to progressively harder ones. This structured difficulty scaling ensures stable and incremental learning. Experimental evaluation demonstrates that our HaluCheck models, trained with curriculum DPO approach and high quality negative samples, significantly improves model performance across various metrics, achieving improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval. Additionally, HaluCheck models demonstrate robustness in zero-shot settings, significantly outperforming larger state-of-the-art models across various benchmarks.

Summary

AI-Generated Summary

PDF132May 26, 2025