Ensinando com Mentiras: Curriculum DPO em Negativos Sintéticos para Detecção de Alucinações
Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
May 23, 2025
Autores: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI
Resumo
Alinhar grandes modelos de linguagem (LLMs) para detectar alucinações com precisão continua sendo um desafio significativo devido à natureza sofisticada do texto alucinado. Reconhecendo que amostras alucinadas geralmente exibem uma qualidade enganosa maior do que amostras negativas tradicionais, utilizamos essas alucinações cuidadosamente projetadas como exemplos negativos no procedimento de alinhamento DPO. Nosso método incorpora uma estratégia de aprendizado curricular, transicionando gradualmente o treinamento de amostras mais fáceis, identificadas com base na maior redução nas pontuações de probabilidade de modelos independentes de verificação de fatos, para amostras progressivamente mais difíceis. Essa escala estruturada de dificuldade garante um aprendizado estável e incremental. A avaliação experimental demonstra que nossos modelos HaluCheck, treinados com a abordagem DPO curricular e amostras negativas de alta qualidade, melhoram significativamente o desempenho do modelo em várias métricas, alcançando melhorias de até 24% em benchmarks difíceis como MedHallu e HaluEval. Além disso, os modelos HaluCheck demonstram robustez em configurações zero-shot, superando significativamente modelos state-of-the-art maiores em vários benchmarks.
English
Aligning large language models (LLMs) to accurately detect hallucinations
remains a significant challenge due to the sophisticated nature of hallucinated
text. Recognizing that hallucinated samples typically exhibit higher deceptive
quality than traditional negative samples, we use these carefully engineered
hallucinations as negative examples in the DPO alignment procedure. Our method
incorporates a curriculum learning strategy, gradually transitioning the
training from easier samples, identified based on the greatest reduction in
probability scores from independent fact checking models, to progressively
harder ones. This structured difficulty scaling ensures stable and incremental
learning. Experimental evaluation demonstrates that our HaluCheck models,
trained with curriculum DPO approach and high quality negative samples,
significantly improves model performance across various metrics, achieving
improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval.
Additionally, HaluCheck models demonstrate robustness in zero-shot settings,
significantly outperforming larger state-of-the-art models across various
benchmarks.