신뢰할 수 있는 생물의학 가설 생성을 향하여: 대규모 언어 모델의 진실성과 환각 현상 평가
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models
May 20, 2025
저자: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
cs.AI
초록
대형 언어 모델(LLMs)은 생물의학과 같은 과학 분야에서 가설 생성에 있어 상당한 잠재력을 보여주고 있습니다. 특히, 방대한 문헌을 분석하고 패턴을 식별하며 연구 방향을 제안할 수 있습니다. 그러나 생성된 가설의 진실성을 평가하는 데 있어 주요한 과제가 존재합니다. 이러한 가설의 정확성을 검증하려면 상당한 시간과 자원이 필요하기 때문입니다. 또한, LLMs의 환각 문제는 그럴듯해 보이지만 궁극적으로 잘못된 가설을 생성할 수 있어 신뢰성을 저해할 수 있습니다. 이러한 문제를 체계적으로 연구하기 위해, 우리는 LLMs가 진실한 생물의학적 가설을 생성하는 능력을 평가하기 위한 벤치마크인 TruthHypo와 기존 지식에 기반한 환각 탐지기인 KnowHD를 소개합니다. 우리의 결과는 LLMs가 진실한 가설을 생성하는 데 어려움을 겪는다는 것을 보여줍니다. 추론 단계에서의 환각을 분석함으로써, KnowHD가 제공하는 근거성 점수가 LLMs의 다양한 출력에서 진실한 가설을 필터링하는 효과적인 지표로 작용함을 입증합니다. 인간 평가는 또한 KnowHD가 진실한 가설을 식별하고 과학적 발견을 가속화하는 데 유용함을 추가로 검증합니다. 우리의 데이터와 소스 코드는 https://github.com/Teddy-XiongGZ/TruthHypo에서 확인할 수 있습니다.
English
Large language models (LLMs) have shown significant potential in scientific
disciplines such as biomedicine, particularly in hypothesis generation, where
they can analyze vast literature, identify patterns, and suggest research
directions. However, a key challenge lies in evaluating the truthfulness of
generated hypotheses, as verifying their accuracy often requires substantial
time and resources. Additionally, the hallucination problem in LLMs can lead to
the generation of hypotheses that appear plausible but are ultimately
incorrect, undermining their reliability. To facilitate the systematic study of
these challenges, we introduce TruthHypo, a benchmark for assessing the
capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD,
a knowledge-based hallucination detector to evaluate how well hypotheses are
grounded in existing knowledge. Our results show that LLMs struggle to generate
truthful hypotheses. By analyzing hallucinations in reasoning steps, we
demonstrate that the groundedness scores provided by KnowHD serve as an
effective metric for filtering truthful hypotheses from the diverse outputs of
LLMs. Human evaluations further validate the utility of KnowHD in identifying
truthful hypotheses and accelerating scientific discovery. Our data and source
code are available at https://github.com/Teddy-XiongGZ/TruthHypo.