ChatPaper.aiChatPaper

Aproveitando Modelos de Linguagem de Grande Escala para Detecção de Novidade Científica

Harnessing Large Language Models for Scientific Novelty Detection

May 30, 2025
Autores: Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria
cs.AI

Resumo

Em uma era de crescimento exponencial científico, identificar novas ideias de pesquisa é crucial e desafiador na academia. Apesar do potencial, a falta de um conjunto de dados de referência apropriado dificulta a pesquisa em detecção de novidades. Mais importante ainda, simplesmente adotar tecnologias existentes de PLN, como recuperação e verificação cruzada, não é uma solução universal devido à lacuna entre similaridade textual e concepção de ideias. Neste artigo, propomos utilizar modelos de linguagem de grande escala (LLMs) para detecção de novidades científicas (ND), associados a dois novos conjuntos de dados nas áreas de marketing e PLN. Para construir conjuntos de dados considerados para ND, propomos extrair conjuntos de fechamento de artigos com base em suas relações e, em seguida, resumir suas principais ideias com base em LLMs. Para capturar a concepção de ideias, propomos treinar um recuperador leve ao destilar o conhecimento em nível de ideia dos LLMs para alinhar ideias com concepção semelhante, permitindo uma recuperação de ideias eficiente e precisa para detecção de novidades em LLMs. Experimentos mostram que nosso método supera consistentemente outros nos conjuntos de dados de referência propostos para tarefas de recuperação de ideias e ND. Códigos e dados estão disponíveis em https://anonymous.4open.science/r/NoveltyDetection-10FB/.
English
In an era of exponential scientific growth, identifying novel research ideas is crucial and challenging in academia. Despite potential, the lack of an appropriate benchmark dataset hinders the research of novelty detection. More importantly, simply adopting existing NLP technologies, e.g., retrieving and then cross-checking, is not a one-size-fits-all solution due to the gap between textual similarity and idea conception. In this paper, we propose to harness large language models (LLMs) for scientific novelty detection (ND), associated with two new datasets in marketing and NLP domains. To construct the considerate datasets for ND, we propose to extract closure sets of papers based on their relationship, and then summarize their main ideas based on LLMs. To capture idea conception, we propose to train a lightweight retriever by distilling the idea-level knowledge from LLMs to align ideas with similar conception, enabling efficient and accurate idea retrieval for LLM novelty detection. Experiments show our method consistently outperforms others on the proposed benchmark datasets for idea retrieval and ND tasks. Codes and data are available at https://anonymous.4open.science/r/NoveltyDetection-10FB/.
PDF52June 2, 2025