ChatPaper.aiChatPaper

Evaluación de Modelos de Lenguaje Grandes para el Descubrimiento de Serendipia en Grafos de Conocimiento: Un Caso de Reutilización de Fármacos

Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

November 16, 2025
Autores: Mengying Wang, Chenhui Ma, Ao Jiao, Tuo Liang, Pengjun Lu, Shrinidhi Hegde, Yu Yin, Evren Gurkan-Cavusoglu, Yinghui Wu
cs.AI

Resumen

Los Modelos de Lenguaje Grandes (LLM) han avanzado enormemente la capacidad de respuesta a preguntas sobre grafos de conocimiento (KGQA), sin embargo, los sistemas existentes suelen estar optimizados para devolver respuestas muy relevantes pero predecibles. Una capacidad deseada pero ausente es la de explotar los LLM para sugerir respuestas sorprendentes y novedosas ("serendípicas"). En este artículo, definimos formalmente la tarea de KGQA con conciencia de la serendipia y proponemos el marco SerenQA para evaluar la capacidad de los LLM para descubrir perspectivas inesperadas en tareas de KGQA científica. SerenQA incluye una métrica rigurosa de serendipia basada en la relevancia, la novedad y la sorpresa, junto con un benchmark anotado por expertos derivado del Grafo de Conocimiento Clínico, centrado en la reutilización de fármacos. Además, cuenta con una pipeline de evaluación estructurada que abarca tres subtareas: recuperación de conocimiento, razonamiento sobre subgrafos y exploración de la serendipia. Nuestros experimentos revelan que, si bien los LLM más avanzados tienen un buen desempeño en la recuperación, aún tienen dificultades para identificar descubrimientos genuinamente sorprendentes y valiosos, lo que subraya un margen significativo para mejoras futuras. Nuestros recursos seleccionados y la versión extendida se publican en: https://cwru-db-group.github.io/serenQA.
English
Large Language Models (LLMs) have greatly advanced knowledge graph question answering (KGQA), yet existing systems are typically optimized for returning highly relevant but predictable answers. A missing yet desired capacity is to exploit LLMs to suggest surprise and novel ("serendipitious") answers. In this paper, we formally define the serendipity-aware KGQA task and propose the SerenQA framework to evaluate LLMs' ability to uncover unexpected insights in scientific KGQA tasks. SerenQA includes a rigorous serendipity metric based on relevance, novelty, and surprise, along with an expert-annotated benchmark derived from the Clinical Knowledge Graph, focused on drug repurposing. Additionally, it features a structured evaluation pipeline encompassing three subtasks: knowledge retrieval, subgraph reasoning, and serendipity exploration. Our experiments reveal that while state-of-the-art LLMs perform well on retrieval, they still struggle to identify genuinely surprising and valuable discoveries, underscoring a significant room for future improvements. Our curated resources and extended version are released at: https://cwru-db-group.github.io/serenQA.
PDF52December 1, 2025