Aproveitando Modelos de Linguagem de Grande Escala para Detecção de Novidade Científica
Harnessing Large Language Models for Scientific Novelty Detection
May 30, 2025
Autores: Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria
cs.AI
Resumo
Em uma era de crescimento exponencial científico, identificar novas ideias de pesquisa é crucial e desafiador na academia. Apesar do potencial, a falta de um conjunto de dados de referência apropriado dificulta a pesquisa em detecção de novidades. Mais importante ainda, simplesmente adotar tecnologias existentes de PLN, como recuperação e verificação cruzada, não é uma solução universal devido à lacuna entre similaridade textual e concepção de ideias. Neste artigo, propomos utilizar modelos de linguagem de grande escala (LLMs) para detecção de novidades científicas (ND), associados a dois novos conjuntos de dados nas áreas de marketing e PLN. Para construir conjuntos de dados considerados para ND, propomos extrair conjuntos de fechamento de artigos com base em suas relações e, em seguida, resumir suas principais ideias com base em LLMs. Para capturar a concepção de ideias, propomos treinar um recuperador leve ao destilar o conhecimento em nível de ideia dos LLMs para alinhar ideias com concepção semelhante, permitindo uma recuperação de ideias eficiente e precisa para detecção de novidades em LLMs. Experimentos mostram que nosso método supera consistentemente outros nos conjuntos de dados de referência propostos para tarefas de recuperação de ideias e ND. Códigos e dados estão disponíveis em https://anonymous.4open.science/r/NoveltyDetection-10FB/.
English
In an era of exponential scientific growth, identifying novel research ideas
is crucial and challenging in academia. Despite potential, the lack of an
appropriate benchmark dataset hinders the research of novelty detection. More
importantly, simply adopting existing NLP technologies, e.g., retrieving and
then cross-checking, is not a one-size-fits-all solution due to the gap between
textual similarity and idea conception. In this paper, we propose to harness
large language models (LLMs) for scientific novelty detection (ND), associated
with two new datasets in marketing and NLP domains. To construct the
considerate datasets for ND, we propose to extract closure sets of papers based
on their relationship, and then summarize their main ideas based on LLMs. To
capture idea conception, we propose to train a lightweight retriever by
distilling the idea-level knowledge from LLMs to align ideas with similar
conception, enabling efficient and accurate idea retrieval for LLM novelty
detection. Experiments show our method consistently outperforms others on the
proposed benchmark datasets for idea retrieval and ND tasks. Codes and data are
available at https://anonymous.4open.science/r/NoveltyDetection-10FB/.