ChatPaper.aiChatPaper

Auf dem Weg zu zuverlässiger biomedizinischer Hypothesengenerierung: Bewertung von Wahrhaftigkeit und Halluzination in großen Sprachmodellen

Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models

May 20, 2025
Autoren: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
cs.AI

Zusammenfassung

Große Sprachmodelle (LLMs) haben ein erhebliches Potenzial in wissenschaftlichen Disziplinen wie der Biomedizin gezeigt, insbesondere bei der Hypothesengenerierung, wo sie umfangreiche Literatur analysieren, Muster identifizieren und Forschungsrichtungen vorschlagen können. Eine zentrale Herausforderung besteht jedoch darin, die Wahrhaftigkeit der generierten Hypothesen zu bewerten, da die Überprüfung ihrer Genauigkeit oft erhebliche Zeit und Ressourcen erfordert. Darüber hinaus kann das Halluzinationsproblem in LLMs zur Generierung von Hypothesen führen, die plausibel erscheinen, aber letztendlich falsch sind, was ihre Zuverlässigkeit untergräbt. Um die systematische Untersuchung dieser Herausforderungen zu erleichtern, führen wir TruthHypo ein, einen Benchmark zur Bewertung der Fähigkeiten von LLMs bei der Generierung wahrheitsgetreuer biomedizinischer Hypothesen, und KnowHD, einen wissensbasierten Halluzinationsdetektor, um zu bewerten, wie gut Hypothesen in bestehendem Wissen verankert sind. Unsere Ergebnisse zeigen, dass LLMs Schwierigkeiten haben, wahrheitsgetreue Hypothesen zu generieren. Durch die Analyse von Halluzinationen in den Denkschritten demonstrieren wir, dass die von KnowHD bereitgestellten Verankerungswerte als effektive Metrik dienen, um wahrheitsgetreue Hypothesen aus den vielfältigen Ausgaben von LLMs herauszufiltern. Menschliche Bewertungen bestätigen weiterhin den Nutzen von KnowHD bei der Identifizierung wahrheitsgetreuer Hypothesen und der Beschleunigung wissenschaftlicher Entdeckungen. Unsere Daten und der Quellcode sind unter https://github.com/Teddy-XiongGZ/TruthHypo verfügbar.
English
Large language models (LLMs) have shown significant potential in scientific disciplines such as biomedicine, particularly in hypothesis generation, where they can analyze vast literature, identify patterns, and suggest research directions. However, a key challenge lies in evaluating the truthfulness of generated hypotheses, as verifying their accuracy often requires substantial time and resources. Additionally, the hallucination problem in LLMs can lead to the generation of hypotheses that appear plausible but are ultimately incorrect, undermining their reliability. To facilitate the systematic study of these challenges, we introduce TruthHypo, a benchmark for assessing the capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD, a knowledge-based hallucination detector to evaluate how well hypotheses are grounded in existing knowledge. Our results show that LLMs struggle to generate truthful hypotheses. By analyzing hallucinations in reasoning steps, we demonstrate that the groundedness scores provided by KnowHD serve as an effective metric for filtering truthful hypotheses from the diverse outputs of LLMs. Human evaluations further validate the utility of KnowHD in identifying truthful hypotheses and accelerating scientific discovery. Our data and source code are available at https://github.com/Teddy-XiongGZ/TruthHypo.
PDF12May 31, 2025