Enseñando con mentiras: DPO de currículo sobre negativos sintéticos para la detección de alucinaciones
Teaching with Lies: Curriculum DPO on Synthetic Negatives for Hallucination Detection
May 23, 2025
Autores: Shrey Pandit, Ashwin Vinod, Liu Leqi, Ying Ding
cs.AI
Resumen
Alinear los modelos de lenguaje de gran escala (LLMs) para detectar alucinaciones con precisión sigue siendo un desafío significativo debido a la naturaleza sofisticada del texto alucinado. Reconociendo que las muestras alucinadas suelen exhibir una calidad engañosa más alta que las muestras negativas tradicionales, utilizamos estas alucinaciones cuidadosamente diseñadas como ejemplos negativos en el procedimiento de alineación DPO. Nuestro método incorpora una estrategia de aprendizaje curricular, transicionando gradualmente el entrenamiento desde muestras más fáciles, identificadas en función de la mayor reducción en las puntuaciones de probabilidad de modelos independientes de verificación de hechos, hacia muestras progresivamente más difíciles. Esta escalada estructurada de dificultad asegura un aprendizaje estable e incremental. La evaluación experimental demuestra que nuestros modelos HaluCheck, entrenados con el enfoque DPO curricular y muestras negativas de alta calidad, mejoran significativamente el rendimiento del modelo en diversas métricas, logrando mejoras de hasta el 24% en puntos de referencia difíciles como MedHallu y HaluEval. Además, los modelos HaluCheck demuestran robustez en configuraciones de cero disparos, superando significativamente a modelos más grandes y de última generación en varios puntos de referencia.
English
Aligning large language models (LLMs) to accurately detect hallucinations
remains a significant challenge due to the sophisticated nature of hallucinated
text. Recognizing that hallucinated samples typically exhibit higher deceptive
quality than traditional negative samples, we use these carefully engineered
hallucinations as negative examples in the DPO alignment procedure. Our method
incorporates a curriculum learning strategy, gradually transitioning the
training from easier samples, identified based on the greatest reduction in
probability scores from independent fact checking models, to progressively
harder ones. This structured difficulty scaling ensures stable and incremental
learning. Experimental evaluation demonstrates that our HaluCheck models,
trained with curriculum DPO approach and high quality negative samples,
significantly improves model performance across various metrics, achieving
improvements of upto 24% on difficult benchmarks like MedHallu and HaluEval.
Additionally, HaluCheck models demonstrate robustness in zero-shot settings,
significantly outperforming larger state-of-the-art models across various
benchmarks.Summary
AI-Generated Summary