Aprovechamiento de Modelos de Lenguaje a Gran Escala para la Detección de Novedades Científicas
Harnessing Large Language Models for Scientific Novelty Detection
May 30, 2025
Autores: Yan Liu, Zonglin Yang, Soujanya Poria, Thanh-Son Nguyen, Erik Cambria
cs.AI
Resumen
En una era de crecimiento científico exponencial, identificar ideas de investigación novedosas es crucial y desafiante en el ámbito académico. A pesar de su potencial, la falta de un conjunto de datos de referencia adecuado dificulta la investigación en detección de novedad. Más importante aún, simplemente adoptar tecnologías existentes de procesamiento del lenguaje natural (PLN), como la recuperación y posterior verificación cruzada, no es una solución universal debido a la brecha entre la similitud textual y la concepción de ideas. En este artículo, proponemos aprovechar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para la detección de novedad científica (ND, por sus siglas en inglés), asociada con dos nuevos conjuntos de datos en los dominios de marketing y PLN. Para construir conjuntos de datos considerados para ND, proponemos extraer conjuntos de cierre de artículos basados en su relación y luego resumir sus ideas principales utilizando LLMs. Para capturar la concepción de ideas, proponemos entrenar un recuperador ligero mediante la destilación del conocimiento a nivel de ideas de los LLMs, alineando ideas con concepciones similares, lo que permite una recuperación de ideas eficiente y precisa para la detección de novedad con LLMs. Los experimentos muestran que nuestro método supera consistentemente a otros en los conjuntos de datos de referencia propuestos para las tareas de recuperación de ideas y ND. Los códigos y datos están disponibles en https://anonymous.4open.science/r/NoveltyDetection-10FB/.
English
In an era of exponential scientific growth, identifying novel research ideas
is crucial and challenging in academia. Despite potential, the lack of an
appropriate benchmark dataset hinders the research of novelty detection. More
importantly, simply adopting existing NLP technologies, e.g., retrieving and
then cross-checking, is not a one-size-fits-all solution due to the gap between
textual similarity and idea conception. In this paper, we propose to harness
large language models (LLMs) for scientific novelty detection (ND), associated
with two new datasets in marketing and NLP domains. To construct the
considerate datasets for ND, we propose to extract closure sets of papers based
on their relationship, and then summarize their main ideas based on LLMs. To
capture idea conception, we propose to train a lightweight retriever by
distilling the idea-level knowledge from LLMs to align ideas with similar
conception, enabling efficient and accurate idea retrieval for LLM novelty
detection. Experiments show our method consistently outperforms others on the
proposed benchmark datasets for idea retrieval and ND tasks. Codes and data are
available at https://anonymous.4open.science/r/NoveltyDetection-10FB/.