Modello di Filtraggio Collaborativo Neurale Guidato da Testo per il Tracciamento delle Fonti dei Documenti
Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing
July 25, 2024
Autori: Aobo Xu, Bingyu Chang, Qingpeng Liu, Ling Jian
cs.AI
Abstract
Identificare riferimenti significativi all'interno delle complesse interrelazioni di un grafo della conoscenza delle citazioni è una sfida impegnativa, che comprende connessioni attraverso citazioni, autori, parole chiave e altri attributi relazionali. Il compito di Paper Source Tracing (PST) mira ad automatizzare l'identificazione di riferimenti chiave per articoli accademici specifici, utilizzando tecniche avanzate di data mining. Nel KDD CUP 2024, abbiamo progettato un framework basato su raccomandazioni, appositamente creato per il compito PST. Questo framework utilizza il modello di Neural Collaborative Filtering (NCF) per generare previsioni finali. Per elaborare gli attributi testuali dei paper ed estrarre le caratteristiche di input per il modello, utilizziamo SciBERT, un modello linguistico pre-addestrato. Secondo i risultati sperimentali, il nostro metodo ha ottenuto un punteggio di 0.37814 sulla metrica Mean Average Precision (MAP), superando i modelli di base e classificandosi all'11° posto tra tutti i team partecipanti. Il codice sorgente è disponibile pubblicamente all'indirizzo https://github.com/MyLove-XAB/KDDCupFinal.
English
Identifying significant references within the complex interrelations of a
citation knowledge graph is challenging, which encompasses connections through
citations, authorship, keywords, and other relational attributes. The Paper
Source Tracing (PST) task seeks to automate the identification of pivotal
references for given scholarly articles utilizing advanced data mining
techniques. In the KDD CUP 2024, we design a recommendation-based framework
tailored for the PST task. This framework employs the Neural Collaborative
Filtering (NCF) model to generate final predictions. To process the textual
attributes of the papers and extract input features for the model, we utilize
SciBERT, a pre-trained language model. According to the experimental results,
our method achieved a score of 0.37814 on the Mean Average Precision (MAP)
metric, outperforming baseline models and ranking 11th among all participating
teams. The source code is publicly available at
https://github.com/MyLove-XAB/KDDCupFinal.