Aprovechamiento de Modelos de Lenguaje a Gran Escala para la Detección de Novedades Científicas

Resumen

En una era de crecimiento científico exponencial, identificar ideas de investigación novedosas es crucial y desafiante en el ámbito académico. A pesar de su potencial, la falta de un conjunto de datos de referencia adecuado dificulta la investigación en detección de novedad. Más importante aún, simplemente adoptar tecnologías existentes de procesamiento del lenguaje natural (PLN), como la recuperación y posterior verificación cruzada, no es una solución universal debido a la brecha entre la similitud textual y la concepción de ideas. En este artículo, proponemos aprovechar los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para la detección de novedad científica (ND, por sus siglas en inglés), asociada con dos nuevos conjuntos de datos en los dominios de marketing y PLN. Para construir conjuntos de datos considerados para ND, proponemos extraer conjuntos de cierre de artículos basados en su relación y luego resumir sus ideas principales utilizando LLMs. Para capturar la concepción de ideas, proponemos entrenar un recuperador ligero mediante la destilación del conocimiento a nivel de ideas de los LLMs, alineando ideas con concepciones similares, lo que permite una recuperación de ideas eficiente y precisa para la detección de novedad con LLMs. Los experimentos muestran que nuestro método supera consistentemente a otros en los conjuntos de datos de referencia propuestos para las tareas de recuperación de ideas y ND. Los códigos y datos están disponibles en https://anonymous.4open.science/r/NoveltyDetection-10FB/.

English

In an era of exponential scientific growth, identifying novel research ideas is crucial and challenging in academia. Despite potential, the lack of an appropriate benchmark dataset hinders the research of novelty detection. More importantly, simply adopting existing NLP technologies, e.g., retrieving and then cross-checking, is not a one-size-fits-all solution due to the gap between textual similarity and idea conception. In this paper, we propose to harness large language models (LLMs) for scientific novelty detection (ND), associated with two new datasets in marketing and NLP domains. To construct the considerate datasets for ND, we propose to extract closure sets of papers based on their relationship, and then summarize their main ideas based on LLMs. To capture idea conception, we propose to train a lightweight retriever by distilling the idea-level knowledge from LLMs to align ideas with similar conception, enabling efficient and accurate idea retrieval for LLM novelty detection. Experiments show our method consistently outperforms others on the proposed benchmark datasets for idea retrieval and ND tasks. Codes and data are available at https://anonymous.4open.science/r/NoveltyDetection-10FB/.