Hacia la Generación Confiable de Hipótesis Biomédicas: Evaluación de la Veracidad y las Alucinaciones en los Modelos de Lenguaje de Gran Escala
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models
May 20, 2025
Autores: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado un potencial significativo en disciplinas científicas como la biomedicina, particularmente en la generación de hipótesis, donde pueden analizar vastas literaturas, identificar patrones y sugerir direcciones de investigación. Sin embargo, un desafío clave radica en evaluar la veracidad de las hipótesis generadas, ya que verificar su precisión a menudo requiere un tiempo y recursos considerables. Además, el problema de las alucinaciones en los LLMs puede llevar a la generación de hipótesis que parecen plausibles pero que, en última instancia, son incorrectas, lo que socava su fiabilidad. Para facilitar el estudio sistemático de estos desafíos, presentamos TruthHypo, un punto de referencia para evaluar las capacidades de los LLMs en la generación de hipótesis biomédicas veraces, y KnowHD, un detector de alucinaciones basado en conocimiento para evaluar qué tan bien están fundamentadas las hipótesis en el conocimiento existente. Nuestros resultados muestran que los LLMs tienen dificultades para generar hipótesis veraces. Al analizar las alucinaciones en los pasos de razonamiento, demostramos que las puntuaciones de fundamentación proporcionadas por KnowHD sirven como una métrica efectiva para filtrar hipótesis veraces de las diversas salidas de los LLMs. Las evaluaciones humanas validan aún más la utilidad de KnowHD en la identificación de hipótesis veraces y la aceleración del descubrimiento científico. Nuestros datos y código fuente están disponibles en https://github.com/Teddy-XiongGZ/TruthHypo.
English
Large language models (LLMs) have shown significant potential in scientific
disciplines such as biomedicine, particularly in hypothesis generation, where
they can analyze vast literature, identify patterns, and suggest research
directions. However, a key challenge lies in evaluating the truthfulness of
generated hypotheses, as verifying their accuracy often requires substantial
time and resources. Additionally, the hallucination problem in LLMs can lead to
the generation of hypotheses that appear plausible but are ultimately
incorrect, undermining their reliability. To facilitate the systematic study of
these challenges, we introduce TruthHypo, a benchmark for assessing the
capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD,
a knowledge-based hallucination detector to evaluate how well hypotheses are
grounded in existing knowledge. Our results show that LLMs struggle to generate
truthful hypotheses. By analyzing hallucinations in reasoning steps, we
demonstrate that the groundedness scores provided by KnowHD serve as an
effective metric for filtering truthful hypotheses from the diverse outputs of
LLMs. Human evaluations further validate the utility of KnowHD in identifying
truthful hypotheses and accelerating scientific discovery. Our data and source
code are available at https://github.com/Teddy-XiongGZ/TruthHypo.