ChatPaper.aiChatPaper

Em Direção à Geração Confiável de Hipóteses Biomédicas: Avaliando Veracidade e Alucinação em Modelos de Linguagem de Grande Escala

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

May 20, 2025
Autores: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
cs.AI

Resumo

Modelos de linguagem de grande escala (LLMs) têm demonstrado um potencial significativo em disciplinas científicas como a biomedicina, particularmente na geração de hipóteses, onde podem analisar vastas literaturas, identificar padrões e sugerir direções de pesquisa. No entanto, um desafio crucial reside na avaliação da veracidade das hipóteses geradas, uma vez que verificar sua precisão frequentemente requer tempo e recursos substanciais. Além disso, o problema de alucinação em LLMs pode levar à geração de hipóteses que parecem plausíveis, mas que são, em última análise, incorretas, comprometendo sua confiabilidade. Para facilitar o estudo sistemático desses desafios, introduzimos o TruthHypo, um benchmark para avaliar as capacidades dos LLMs na geração de hipóteses biomédicas verdadeiras, e o KnowHD, um detector de alucinações baseado em conhecimento para avaliar o quão bem as hipóteses estão fundamentadas no conhecimento existente. Nossos resultados mostram que os LLMs têm dificuldade em gerar hipóteses verdadeiras. Ao analisar alucinações nas etapas de raciocínio, demonstramos que as pontuações de fundamentação fornecidas pelo KnowHD servem como uma métrica eficaz para filtrar hipóteses verdadeiras a partir das diversas saídas dos LLMs. Avaliações humanas validam ainda mais a utilidade do KnowHD na identificação de hipóteses verdadeiras e na aceleração da descoberta científica. Nossos dados e código-fonte estão disponíveis em https://github.com/Teddy-XiongGZ/TruthHypo.
English
Large language models (LLMs) have shown significant potential in scientific disciplines such as biomedicine, particularly in hypothesis generation, where they can analyze vast literature, identify patterns, and suggest research directions. However, a key challenge lies in evaluating the truthfulness of generated hypotheses, as verifying their accuracy often requires substantial time and resources. Additionally, the hallucination problem in LLMs can lead to the generation of hypotheses that appear plausible but are ultimately incorrect, undermining their reliability. To facilitate the systematic study of these challenges, we introduce TruthHypo, a benchmark for assessing the capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD, a knowledge-based hallucination detector to evaluate how well hypotheses are grounded in existing knowledge. Our results show that LLMs struggle to generate truthful hypotheses. By analyzing hallucinations in reasoning steps, we demonstrate that the groundedness scores provided by KnowHD serve as an effective metric for filtering truthful hypotheses from the diverse outputs of LLMs. Human evaluations further validate the utility of KnowHD in identifying truthful hypotheses and accelerating scientific discovery. Our data and source code are available at https://github.com/Teddy-XiongGZ/TruthHypo.
PDF32May 31, 2025