Valutazione dei LLM per la Scoperta Serendipitosa nelle Knowledge Graph: un Caso di Riuso dei Farmaci
Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing
November 16, 2025
Autori: Mengying Wang, Chenhui Ma, Ao Jiao, Tuo Liang, Pengjun Lu, Shrinidhi Hegde, Yu Yin, Evren Gurkan-Cavusoglu, Yinghui Wu
cs.AI
Abstract
I modelli linguistici di grandi dimensioni (LLM) hanno notevolmente fatto progredire il question answering su grafi di conoscenza (KGQA), tuttavia i sistemi esistenti sono tipicamente ottimizzati per restituire risposte altamente pertinenti ma prevedibili. Una capacità mancante ma desiderabile è quella di sfruttare gli LLM per suggerire risposte sorprendenti e innovative ("serendipitose"). In questo articolo, definiamo formalmente il compito di KGQA con consapevolezza della serendipità e proponiamo il framework SerenQA per valutare la capacità degli LLM di scoprire intuizioni inaspettate in compiti di KGQA scientifici. SerenQA include una metrica rigorosa per la serendipità basata su rilevanza, novità e sorpresa, insieme a un benchmark annotato da esperti derivato dal Clinical Knowledge Graph, incentrato sul riposizionamento di farmaci. Inoltre, presenta una pipeline di valutazione strutturata che comprende tre sottocompiti: recupero della conoscenza, ragionamento su sottografi ed esplorazione della serendipità. I nostri esperimenti rivelano che, sebbene gli LLM allo stato dell'arte performino bene nel recupero delle informazioni, essi faticano ancora a identificare scoperte genuinamente sorprendenti e di valore, sottolineando un margine di miglioramento significativo per il futuro. Le nostre risorse curate e la versione estesa sono rilasciate all'indirizzo: https://cwru-db-group.github.io/serenQA.
English
Large Language Models (LLMs) have greatly advanced knowledge graph question answering (KGQA), yet existing systems are typically optimized for returning highly relevant but predictable answers. A missing yet desired capacity is to exploit LLMs to suggest surprise and novel ("serendipitious") answers. In this paper, we formally define the serendipity-aware KGQA task and propose the SerenQA framework to evaluate LLMs' ability to uncover unexpected insights in scientific KGQA tasks. SerenQA includes a rigorous serendipity metric based on relevance, novelty, and surprise, along with an expert-annotated benchmark derived from the Clinical Knowledge Graph, focused on drug repurposing. Additionally, it features a structured evaluation pipeline encompassing three subtasks: knowledge retrieval, subgraph reasoning, and serendipity exploration. Our experiments reveal that while state-of-the-art LLMs perform well on retrieval, they still struggle to identify genuinely surprising and valuable discoveries, underscoring a significant room for future improvements. Our curated resources and extended version are released at: https://cwru-db-group.github.io/serenQA.