Modelo de Filtrado Colaborativo Neuronal Impulsado por Texto para el Rastreo de la Fuente de Documentos
Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing
July 25, 2024
Autores: Aobo Xu, Bingyu Chang, Qingpeng Liu, Ling Jian
cs.AI
Resumen
Identificar referencias significativas dentro de las complejas interrelaciones de un grafo de conocimiento de citas es un desafío, que abarca conexiones a través de citas, autoría, palabras clave y otros atributos relacionales. La tarea de Rastreo de Fuentes de Artículos (PST) busca automatizar la identificación de referencias clave para artículos académicos dados utilizando técnicas avanzadas de minería de datos. En la KDD CUP 2024, diseñamos un marco basado en recomendaciones adaptado para la tarea de PST. Este marco emplea el modelo de Filtrado Colaborativo Neural (NCF) para generar predicciones finales. Para procesar los atributos textuales de los artículos y extraer características de entrada para el modelo, utilizamos SciBERT, un modelo de lenguaje pre-entrenado. Según los resultados experimentales, nuestro método logró una puntuación de 0.37814 en la métrica de Precisión Promedio Media (MAP), superando a los modelos de referencia y clasificándose en el puesto 11 entre todos los equipos participantes. El código fuente está disponible públicamente en https://github.com/MyLove-XAB/KDDCupFinal.
English
Identifying significant references within the complex interrelations of a
citation knowledge graph is challenging, which encompasses connections through
citations, authorship, keywords, and other relational attributes. The Paper
Source Tracing (PST) task seeks to automate the identification of pivotal
references for given scholarly articles utilizing advanced data mining
techniques. In the KDD CUP 2024, we design a recommendation-based framework
tailored for the PST task. This framework employs the Neural Collaborative
Filtering (NCF) model to generate final predictions. To process the textual
attributes of the papers and extract input features for the model, we utilize
SciBERT, a pre-trained language model. According to the experimental results,
our method achieved a score of 0.37814 on the Mean Average Precision (MAP)
metric, outperforming baseline models and ranking 11th among all participating
teams. The source code is publicly available at
https://github.com/MyLove-XAB/KDDCupFinal.Summary
AI-Generated Summary