ChatPaper.aiChatPaper

Exploiter les modèles de langage à grande échelle pour la détection de nouveauté scientifique

Harnessing Large Language Models for Scientific Novelty Detection

May 30, 2025
Auteurs: Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria
cs.AI

Résumé

À une époque de croissance scientifique exponentielle, identifier des idées de recherche novatrices est crucial et complexe dans le milieu académique. Malgré leur potentiel, l'absence d'un ensemble de données de référence approprié entrave la recherche sur la détection de nouveauté. Plus important encore, l'adoption simple des technologies existantes en traitement du langage naturel (TLN), comme la récupération suivie d'une vérification croisée, ne constitue pas une solution universelle en raison de l'écart entre la similarité textuelle et la conception d'idées. Dans cet article, nous proposons d'exploiter les grands modèles de langage (LLMs) pour la détection de nouveauté scientifique (ND), en association avec deux nouveaux ensembles de données dans les domaines du marketing et du TLN. Pour construire des ensembles de données adaptés à la ND, nous proposons d'extraire des ensembles de fermeture d'articles en fonction de leurs relations, puis de résumer leurs idées principales à l'aide de LLMs. Pour capturer la conception d'idées, nous proposons d'entraîner un récupérateur léger en distillant les connaissances au niveau des idées des LLMs pour aligner les idées ayant une conception similaire, permettant ainsi une récupération d'idées efficace et précise pour la détection de nouveauté par LLM. Les expériences montrent que notre méthode surpasse systématiquement les autres sur les ensembles de données de référence proposés pour les tâches de récupération d'idées et de ND. Les codes et les données sont disponibles à l'adresse suivante : https://anonymous.4open.science/r/NoveltyDetection-10FB/.
English
In an era of exponential scientific growth, identifying novel research ideas is crucial and challenging in academia. Despite potential, the lack of an appropriate benchmark dataset hinders the research of novelty detection. More importantly, simply adopting existing NLP technologies, e.g., retrieving and then cross-checking, is not a one-size-fits-all solution due to the gap between textual similarity and idea conception. In this paper, we propose to harness large language models (LLMs) for scientific novelty detection (ND), associated with two new datasets in marketing and NLP domains. To construct the considerate datasets for ND, we propose to extract closure sets of papers based on their relationship, and then summarize their main ideas based on LLMs. To capture idea conception, we propose to train a lightweight retriever by distilling the idea-level knowledge from LLMs to align ideas with similar conception, enabling efficient and accurate idea retrieval for LLM novelty detection. Experiments show our method consistently outperforms others on the proposed benchmark datasets for idea retrieval and ND tasks. Codes and data are available at https://anonymous.4open.science/r/NoveltyDetection-10FB/.
PDF52June 2, 2025