Modèle de Filtrage Collaboratif Neural Piloté par Texte pour le Traçage des Sources d'Articles
Text-Driven Neural Collaborative Filtering Model for Paper Source Tracing
July 25, 2024
Auteurs: Aobo Xu, Bingyu Chang, Qingpeng Liu, Ling Jian
cs.AI
Résumé
Identifier les références significatives au sein des interrelations complexes d'un graphe de connaissances de citations représente un défi, englobant les connexions via les citations, la paternité d'articles, les mots-clés et d'autres attributs relationnels. La tâche de traçage des sources d'articles (Paper Source Tracing, PST) vise à automatiser l'identification des références pivots pour des articles scientifiques donnés en utilisant des techniques avancées d'exploration de données. Dans le cadre du KDD CUP 2024, nous avons conçu un cadre de recommandation spécifiquement adapté à la tâche PST. Ce cadre utilise le modèle de filtrage collaboratif neuronal (Neural Collaborative Filtering, NCF) pour générer les prédictions finales. Pour traiter les attributs textuels des articles et extraire les caractéristiques d'entrée du modèle, nous utilisons SciBERT, un modèle de langage pré-entraîné. Selon les résultats expérimentaux, notre méthode a obtenu un score de 0,37814 sur la métrique de précision moyenne (Mean Average Precision, MAP), surpassant les modèles de référence et se classant 11e parmi toutes les équipes participantes. Le code source est disponible publiquement à l'adresse https://github.com/MyLove-XAB/KDDCupFinal.
English
Identifying significant references within the complex interrelations of a
citation knowledge graph is challenging, which encompasses connections through
citations, authorship, keywords, and other relational attributes. The Paper
Source Tracing (PST) task seeks to automate the identification of pivotal
references for given scholarly articles utilizing advanced data mining
techniques. In the KDD CUP 2024, we design a recommendation-based framework
tailored for the PST task. This framework employs the Neural Collaborative
Filtering (NCF) model to generate final predictions. To process the textual
attributes of the papers and extract input features for the model, we utilize
SciBERT, a pre-trained language model. According to the experimental results,
our method achieved a score of 0.37814 on the Mean Average Precision (MAP)
metric, outperforming baseline models and ranking 11th among all participating
teams. The source code is publicly available at
https://github.com/MyLove-XAB/KDDCupFinal.Summary
AI-Generated Summary