ChatPaper.aiChatPaper

MedHallu: Un punto de referencia integral para la detección de alucinaciones médicas en modelos de lenguaje de gran escala

MedHallu: A Comprehensive Benchmark for Detecting Medical Hallucinations in Large Language Models

February 20, 2025
Autores: Shrey Pandit, Jiawei Xu, Junyuan Hong, Zhangyang Wang, Tianlong Chen, Kaidi Xu, Ying Ding
cs.AI

Resumen

Los avances en los Modelos de Lenguaje de Gran Escala (LLMs, por sus siglas en inglés) y su creciente uso en la respuesta a preguntas médicas exigen una evaluación rigurosa de su fiabilidad. Un desafío crítico radica en la alucinación, donde los modelos generan respuestas plausibles pero factualmente incorrectas. En el ámbito médico, esto representa un riesgo grave para la seguridad del paciente y la toma de decisiones clínicas. Para abordar este problema, presentamos MedHallu, el primer punto de referencia específicamente diseñado para la detección de alucinaciones médicas. MedHallu consta de 10,000 pares de preguntas-respuestas de alta calidad derivados de PubMedQA, con respuestas alucinadas generadas sistemáticamente mediante un proceso controlado. Nuestros experimentos muestran que los LLMs más avanzados, incluyendo GPT-4o, Llama-3.1 y el modelo ajustado médicamente UltraMedical, tienen dificultades con esta tarea binaria de detección de alucinaciones, donde el mejor modelo alcanza un puntaje F1 tan bajo como 0.625 para detectar alucinaciones de la categoría "difícil". Mediante el agrupamiento bidireccional de implicación, demostramos que las alucinaciones más difíciles de detectar están semánticamente más cerca de la verdad fundamental. A través de experimentos, también mostramos que la incorporación de conocimiento específico del dominio y la introducción de una categoría "no estoy seguro" como una de las opciones de respuesta mejora la precisión y los puntajes F1 hasta en un 38% en comparación con las líneas base.
English
Advancements in Large Language Models (LLMs) and their increasing use in medical question-answering necessitate rigorous evaluation of their reliability. A critical challenge lies in hallucination, where models generate plausible yet factually incorrect outputs. In the medical domain, this poses serious risks to patient safety and clinical decision-making. To address this, we introduce MedHallu, the first benchmark specifically designed for medical hallucination detection. MedHallu comprises 10,000 high-quality question-answer pairs derived from PubMedQA, with hallucinated answers systematically generated through a controlled pipeline. Our experiments show that state-of-the-art LLMs, including GPT-4o, Llama-3.1, and the medically fine-tuned UltraMedical, struggle with this binary hallucination detection task, with the best model achieving an F1 score as low as 0.625 for detecting "hard" category hallucinations. Using bidirectional entailment clustering, we show that harder-to-detect hallucinations are semantically closer to ground truth. Through experiments, we also show incorporating domain-specific knowledge and introducing a "not sure" category as one of the answer categories improves the precision and F1 scores by up to 38% relative to baselines.

Summary

AI-Generated Summary

PDF92February 24, 2025