Avaliação de LLMs para a Descoberta de Serendipidade em Grafos de Conhecimento: Um Caso para o Reposicionamento de Fármacos

Resumo

Os Grandes Modelos de Linguagem (LLMs) avançaram significativamente a área de questionamento e resposta sobre grafos de conhecimento (KGQA), mas os sistemas existentes são normalmente otimizados para retornar respostas altamente relevantes, porém previsíveis. Uma capacidade ausente, mas desejada, é explorar os LLMs para sugerir respostas surpreendentes e novas ("serendipitous"). Neste artigo, definimos formalmente a tarefa de KGQA com consciência da serendipidade e propomos o framework SerenQA para avaliar a capacidade dos LLMs de descobrir insights inesperados em tarefas científicas de KGQA. O SerenQA inclui uma métrica rigorosa de serendipidade baseada em relevância, novidade e surpresa, juntamente com um benchmark anotado por especialistas, derivado do Clinical Knowledge Graph e focado no reposicionamento de fármacos. Adicionalmente, apresenta um pipeline de avaliação estruturado que abrange três subtarefas: recuperação de conhecimento, raciocínio sobre subgrafos e exploração da serendipidade. Nossos experimentos revelam que, embora os LLMs de última geração tenham um bom desempenho na recuperação, eles ainda lutam para identificar descobertas genuinamente surpreendentes e valiosas, destacando uma margem significativa para melhorias futuras. Nossos recursos curados e a versão estendida estão disponíveis em: https://cwru-db-group.github.io/serenQA.

English

Large Language Models (LLMs) have greatly advanced knowledge graph question answering (KGQA), yet existing systems are typically optimized for returning highly relevant but predictable answers. A missing yet desired capacity is to exploit LLMs to suggest surprise and novel ("serendipitious") answers. In this paper, we formally define the serendipity-aware KGQA task and propose the SerenQA framework to evaluate LLMs' ability to uncover unexpected insights in scientific KGQA tasks. SerenQA includes a rigorous serendipity metric based on relevance, novelty, and surprise, along with an expert-annotated benchmark derived from the Clinical Knowledge Graph, focused on drug repurposing. Additionally, it features a structured evaluation pipeline encompassing three subtasks: knowledge retrieval, subgraph reasoning, and serendipity exploration. Our experiments reveal that while state-of-the-art LLMs perform well on retrieval, they still struggle to identify genuinely surprising and valuable discoveries, underscoring a significant room for future improvements. Our curated resources and extended version are released at: https://cwru-db-group.github.io/serenQA.

Avaliação de LLMs para a Descoberta de Serendipidade em Grafos de Conhecimento: Um Caso para o Reposicionamento de Fármacos

Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing

Resumo

Support