PaperFlow : Profilage, recommandation et adaptation à travers les flux quotidiens de papiers

Résumé

La recommandation d'articles scientifiques est généralement évaluée comme un classement statique sur un ensemble fixe de candidats, alors que la lecture scientifique réelle se déroule comme un processus quotidien et longitudinal dans lequel les intérêts évoluent et le feedback s'accumule. Nous présentons PaperFlow, un cadre qui l'organise en trois étapes couplées : le Profilage, qui construit et maintient un profil académique structuré et inspectable à partir de preuves hétérogènes de démarrage à froid ; la Recommandation, qui classe chaque flux d'articles spécifique à une date via une agrégation multi-signaux sous un budget d'affichage fixe ; et l'Adaptation, qui met à jour l'état de l'utilisateur à partir de signaux de feedback sémantiquement distincts et modélise la dérive des intérêts au fil des jours. Nous définissons en outre un benchmark longitudinal utilisateur-jour qui fixe les utilisateurs, les dates, les pools de candidats, les entrées visibles et les étiquettes de pertinence simulées cachées sous une frontière d'information temporelle partagée. Le benchmark contient 24 utilisateurs de recherche simulés, 50 flux d'articles quotidiens, 1 200 épisodes utilisateur-jour, 20 727 articles uniques et 497 448 enregistrements épisode-article. Nous spécifions en outre un protocole d'évaluation humaine en aveugle pour valider l'alignement entre les métriques automatiques et les jugements d'experts. Les expériences contre cinq bases de référence de recommandation scientifique montrent que PaperFlow obtient le meilleur classement basé sur oracle, le meilleur alignement comportemental avec les sélections de lecture simulées et le meilleur score d'évaluation humaine en aveugle.

English

Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real scientific reading unfolds as a daily, longitudinal process in which interests shift and feedback accumulates. We introduce PaperFlow, a framework that organizes it into three coupled stages: Profiling, which constructs and maintains a structured, inspectable scholarly profile from heterogeneous cold-start evidence; Recommending, which ranks each date-specific paper stream through multi-signal aggregation under a fixed display budget; and Adapting, which updates user state from semantically distinct feedback signals and models interest drift across days. We further define a longitudinal user-day benchmark that fixes users, dates, candidate pools, visible inputs, and hidden simulated relevance labels under a shared temporal information boundary. The benchmark contains 24 simulated research users, 50 daily paper streams, 1,200 user-day episodes, 20,727 unique papers, and 497,448 episode-paper records. We additionally specify a blind human-evaluation protocol to validate alignment between automatic metrics and expert judgments. Experiments against five scientific recommendation baselines show that PaperFlow achieves the strongest oracle-based ranking, the highest behavioral alignment with simulated reading selections, and the best blind human-evaluation score.