К надежной генерации биомедицинских гипотез: оценка правдивости и галлюцинаций в крупных языковых моделях
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models
May 20, 2025
Авторы: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
cs.AI
Аннотация
Крупные языковые модели (LLMs) продемонстрировали значительный потенциал в научных дисциплинах, таких как биомедицина, особенно в генерации гипотез, где они могут анализировать обширную литературу, выявлять закономерности и предлагать направления исследований. Однако ключевая проблема заключается в оценке достоверности сгенерированных гипотез, поскольку проверка их точности часто требует значительных временных и ресурсных затрат. Кроме того, проблема галлюцинаций в LLMs может приводить к созданию гипотез, которые кажутся правдоподобными, но в конечном итоге оказываются ошибочными, что подрывает их надежность. Для систематического изучения этих проблем мы представляем TruthHypo — эталонный набор данных для оценки способностей LLMs генерировать достоверные биомедицинские гипотезы, а также KnowHD — детектор галлюцинаций на основе знаний, который оценивает, насколько гипотезы основаны на существующих данных. Наши результаты показывают, что LLMs испытывают трудности с генерацией достоверных гипотез. Анализируя галлюцинации в шагах рассуждений, мы демонстрируем, что оценки обоснованности, предоставляемые KnowHD, служат эффективным метрическим инструментом для фильтрации достоверных гипотез из разнообразных выходных данных LLMs. Человеческие оценки дополнительно подтверждают полезность KnowHD в идентификации достоверных гипотез и ускорении научных открытий. Наши данные и исходный код доступны по адресу https://github.com/Teddy-XiongGZ/TruthHypo.
English
Large language models (LLMs) have shown significant potential in scientific
disciplines such as biomedicine, particularly in hypothesis generation, where
they can analyze vast literature, identify patterns, and suggest research
directions. However, a key challenge lies in evaluating the truthfulness of
generated hypotheses, as verifying their accuracy often requires substantial
time and resources. Additionally, the hallucination problem in LLMs can lead to
the generation of hypotheses that appear plausible but are ultimately
incorrect, undermining their reliability. To facilitate the systematic study of
these challenges, we introduce TruthHypo, a benchmark for assessing the
capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD,
a knowledge-based hallucination detector to evaluate how well hypotheses are
grounded in existing knowledge. Our results show that LLMs struggle to generate
truthful hypotheses. By analyzing hallucinations in reasoning steps, we
demonstrate that the groundedness scores provided by KnowHD serve as an
effective metric for filtering truthful hypotheses from the diverse outputs of
LLMs. Human evaluations further validate the utility of KnowHD in identifying
truthful hypotheses and accelerating scientific discovery. Our data and source
code are available at https://github.com/Teddy-XiongGZ/TruthHypo.