Оценка способностей больших языковых моделей к обнаружению серендипитичности в графах знаний: пример репозиционирования лекарственных средств
Assessing LLMs for Serendipity Discovery in Knowledge Graphs: A Case for Drug Repurposing
November 16, 2025
Авторы: Mengying Wang, Chenhui Ma, Ao Jiao, Tuo Liang, Pengjun Lu, Shrinidhi Hegde, Yu Yin, Evren Gurkan-Cavusoglu, Yinghui Wu
cs.AI
Аннотация
Крупные языковые модели (LLM) значительно продвинули вперед задачу вопросно-ответных систем на основе графов знаний (KGQA), однако существующие системы обычно оптимизированы для выдачи высокорелевантных, но предсказуемых ответов. Недостающей, но желательной способностью является использование LLM для предложения неожиданных и новых («серендиптивных») ответов. В данной статье мы формально определяем задачу KGQA с учетом серендиптивности и предлагаем фреймворк SerenQA для оценки способности LLM раскрывать неожиданные инсайты в научных задачах KGQA. SerenQA включает строгую метрику серендиптивности, основанную на релевантности, новизне и неожиданности, а также экспертно размеченный бенчмарк, созданный на основе Клинического графа знаний и сфокусированный на перепрофилировании лекарственных средств. Кроме того, он содержит структурированный пайплайн оценки, охватывающий три подзадачи: извлечение знаний, логический вывод на подграфе и исследование серендиптивности. Наши эксперименты показывают, что хотя современные LLM хорошо справляются с извлечением, они все еще испытывают трудности с выявлением действительно неожиданных и ценных открытий, что указывает на значительный простор для будущих улучшений. Наши подготовленные ресурсы и расширенная версия доступны по адресу: https://cwru-db-group.github.io/serenQA.
English
Large Language Models (LLMs) have greatly advanced knowledge graph question answering (KGQA), yet existing systems are typically optimized for returning highly relevant but predictable answers. A missing yet desired capacity is to exploit LLMs to suggest surprise and novel ("serendipitious") answers. In this paper, we formally define the serendipity-aware KGQA task and propose the SerenQA framework to evaluate LLMs' ability to uncover unexpected insights in scientific KGQA tasks. SerenQA includes a rigorous serendipity metric based on relevance, novelty, and surprise, along with an expert-annotated benchmark derived from the Clinical Knowledge Graph, focused on drug repurposing. Additionally, it features a structured evaluation pipeline encompassing three subtasks: knowledge retrieval, subgraph reasoning, and serendipity exploration. Our experiments reveal that while state-of-the-art LLMs perform well on retrieval, they still struggle to identify genuinely surprising and valuable discoveries, underscoring a significant room for future improvements. Our curated resources and extended version are released at: https://cwru-db-group.github.io/serenQA.