Verso una Generazione Affidabile di Ipotesi Biomediche: Valutazione della Veridicità e delle Allucinazioni nei Modelli Linguistici di Grande Dimensione
Toward Reliable Biomedical Hypothesis Generation: Evaluating Truthfulness and Hallucination in Large Language Models
May 20, 2025
Autori: Guangzhi Xiong, Eric Xie, Corey Williams, Myles Kim, Amir Hassan Shariatmadari, Sikun Guo, Stefan Bekiranov, Aidong Zhang
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno dimostrato un potenziale significativo in discipline scientifiche come la biomedicina, in particolare nella generazione di ipotesi, dove possono analizzare vaste letterature, identificare modelli e suggerire direzioni di ricerca. Tuttavia, una sfida chiave risiede nella valutazione della veridicità delle ipotesi generate, poiché verificarne l'accuratezza richiede spesso tempi e risorse considerevoli. Inoltre, il problema delle allucinazioni nei LLM può portare alla generazione di ipotesi che appaiono plausibili ma che si rivelano infine errate, minando la loro affidabilità. Per facilitare lo studio sistematico di queste sfide, introduciamo TruthHypo, un benchmark per valutare le capacità dei LLM nella generazione di ipotesi biomediche veritiere, e KnowHD, un rilevatore di allucinazioni basato sulla conoscenza per valutare quanto bene le ipotesi siano radicate nelle conoscenze esistenti. I nostri risultati mostrano che i LLM faticano a generare ipotesi veritiere. Analizzando le allucinazioni nei passaggi di ragionamento, dimostriamo che i punteggi di groundedness forniti da KnowHD rappresentano una metrica efficace per filtrare le ipotesi veritiere dai molteplici output dei LLM. Le valutazioni umane convalidano ulteriormente l'utilità di KnowHD nell'identificare ipotesi veritiere e accelerare la scoperta scientifica. I nostri dati e il codice sorgente sono disponibili all'indirizzo https://github.com/Teddy-XiongGZ/TruthHypo.
English
Large language models (LLMs) have shown significant potential in scientific
disciplines such as biomedicine, particularly in hypothesis generation, where
they can analyze vast literature, identify patterns, and suggest research
directions. However, a key challenge lies in evaluating the truthfulness of
generated hypotheses, as verifying their accuracy often requires substantial
time and resources. Additionally, the hallucination problem in LLMs can lead to
the generation of hypotheses that appear plausible but are ultimately
incorrect, undermining their reliability. To facilitate the systematic study of
these challenges, we introduce TruthHypo, a benchmark for assessing the
capabilities of LLMs in generating truthful biomedical hypotheses, and KnowHD,
a knowledge-based hallucination detector to evaluate how well hypotheses are
grounded in existing knowledge. Our results show that LLMs struggle to generate
truthful hypotheses. By analyzing hallucinations in reasoning steps, we
demonstrate that the groundedness scores provided by KnowHD serve as an
effective metric for filtering truthful hypotheses from the diverse outputs of
LLMs. Human evaluations further validate the utility of KnowHD in identifying
truthful hypotheses and accelerating scientific discovery. Our data and source
code are available at https://github.com/Teddy-XiongGZ/TruthHypo.