Het beoordelen van grote taalmodel(len) voor serendipiteit(s)ontdekking in kennisgrafen: een casus voor hergebruik van geneesmiddelen.
Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing
November 16, 2025
Auteurs: Mengying Wang, Chenhui Ma, Ao Jiao, Tuo Liang, Pengjun Lu, Shrinidhi Hegde, Yu Yin, Evren Gurkan-Cavusoglu, Yinghui Wu
cs.AI
Samenvatting
Grote Taalmodellen (LLM's) hebben kennisgrafiekvraagbeantwoording (KGQA) aanzienlijk vooruitgeholpen, maar bestaande systemen zijn doorgaans geoptimaliseerd voor het retourneren van zeer relevante maar voorspelbare antwoorden. Een ontbrekende doch gewenste capaciteit is het benutten van LLM's om verrassende en nieuwe ('serendipiteuze') antwoorden voor te stellen. In dit artikel definiëren we formeel de serendipity-bewuste KGQA-taak en presenteren we het SerenQA-framework om het vermogen van LLM's te evalueren om onverwachte inzichten bloot te leggen bij wetenschappelijke KGQA-taken. SerenQA omvat een rigoureuze serendipity-metric gebaseerd op relevantie, nieuwheid en verrassing, samen met een door experts geannoteerde benchmark afgeleid van de Klinische Kennisgrafiek, gericht op drug repurposing. Daarnaast bevat het een gestructureerde evaluatiepijplijn die drie subtaken omvat: kennisherwinning, subgraafredenering en serendipity-verkenning. Onze experimenten tonen aan dat, hoewel state-of-the-art LLM's goed presteren op herwinning, ze nog steeds moeite hebben om werkelijk verrassende en waardevolle ontdekkingen te identificeren, wat wijst op een aanzienlijke ruimte voor toekomstige verbeteringen. Onze samengestelde bronnen en uitgebreide versie zijn vrijgegeven op: https://cwru-db-group.github.io/serenQA.
English
Large Language Models (LLMs) have greatly advanced knowledge graph question answering (KGQA), yet existing systems are typically optimized for returning highly relevant but predictable answers. A missing yet desired capacity is to exploit LLMs to suggest surprise and novel ("serendipitious") answers. In this paper, we formally define the serendipity-aware KGQA task and propose the SerenQA framework to evaluate LLMs' ability to uncover unexpected insights in scientific KGQA tasks. SerenQA includes a rigorous serendipity metric based on relevance, novelty, and surprise, along with an expert-annotated benchmark derived from the Clinical Knowledge Graph, focused on drug repurposing. Additionally, it features a structured evaluation pipeline encompassing three subtasks: knowledge retrieval, subgraph reasoning, and serendipity exploration. Our experiments reveal that while state-of-the-art LLMs perform well on retrieval, they still struggle to identify genuinely surprising and valuable discoveries, underscoring a significant room for future improvements. Our curated resources and extended version are released at: https://cwru-db-group.github.io/serenQA.