PaperFlow: Profileren, Aanbevelen en Aanpassen in Dagelijkse Paperstromen

Samenvatting

Aanbeveling van wetenschappelijke artikelen wordt doorgaans geëvalueerd als een statische rangschikking over een vaste kandidaatset, maar het echte wetenschappelijke lezen verloopt als een dagelijks, longitudinaal proces waarin interesses verschuiven en feedback accumuleert. We introduceren PaperFlow, een raamwerk dat dit organiseert in drie gekoppelde fasen: Profileren, dat een gestructureerd, inspecteerbaar wetenschappelijk profiel opbouwt en onderhoudt op basis van heterogeen koude-start bewijs; Aanbevelen, dat elke datumspecifieke artikelstroom rangschikt via multi-signaal aggregatie onder een vast weergavebudget; en Aanpassen, dat de gebruikerstoestand bijwerkt op basis van semantisch verschillende feedbacksignalen en interesseverschuiving over dagen modelleert. We definiëren verder een longitudinale gebruiker-dag benchmark die gebruikers, data, kandidaatsets, zichtbare inputs en verborgen gesimuleerde relevantielabels vastlegt onder een gedeelde temporele informatiegrens. De benchmark bevat 24 gesimuleerde onderzoekers, 50 dagelijkse artikelstromen, 1 200 gebruiker-dag episoden, 20 727 unieke artikelen en 497 448 episode-artikel records. We specificeren daarnaast een blind menselijk evaluatieprotocol om de afstemming tussen automatische metrieken en oordelen van experts te valideren. Experimenten tegen vijf basislijnen voor wetenschappelijke aanbevelingen tonen aan dat PaperFlow de sterkste orakelgebaseerde rangschikking, de hoogste gedragsafstemming met gesimuleerde leesselecties en de beste blinde menselijke evaluatiescore behaalt.

English

Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real scientific reading unfolds as a daily, longitudinal process in which interests shift and feedback accumulates. We introduce PaperFlow, a framework that organizes it into three coupled stages: Profiling, which constructs and maintains a structured, inspectable scholarly profile from heterogeneous cold-start evidence; Recommending, which ranks each date-specific paper stream through multi-signal aggregation under a fixed display budget; and Adapting, which updates user state from semantically distinct feedback signals and models interest drift across days. We further define a longitudinal user-day benchmark that fixes users, dates, candidate pools, visible inputs, and hidden simulated relevance labels under a shared temporal information boundary. The benchmark contains 24 simulated research users, 50 daily paper streams, 1,200 user-day episodes, 20,727 unique papers, and 497,448 episode-paper records. We additionally specify a blind human-evaluation protocol to validate alignment between automatic metrics and expert judgments. Experiments against five scientific recommendation baselines show that PaperFlow achieves the strongest oracle-based ranking, the highest behavioral alignment with simulated reading selections, and the best blind human-evaluation score.