PaperFlow: профилирование, рекомендация и адаптация в ежедневных потоках статей

Аннотация

Рекомендация научных статей обычно оценивается как статическое ранжирование по фиксированному набору кандидатов, однако реальное научное чтение представляет собой ежедневный долгосрочный процесс, в котором интересы меняются, а обратная связь накапливается. Мы представляем PaperFlow — фреймворк, который организует этот процесс в три взаимосвязанных этапа: профилирование, которое строит и поддерживает структурированный, проверяемый научный профиль на основе разнородных данных «холодного старта»; рекомендация, которая ранжирует каждый датированный поток статей с помощью агрегации множества сигналов при фиксированном бюджете отображения; и адаптация, которая обновляет состояние пользователя на основе семантически различных сигналов обратной связи и моделирует дрейф интересов по дням. Мы также определяем долгосрочный бенчмарк «пользователь-день», который фиксирует пользователей, даты, пулы кандидатов, видимые входные данные и скрытые смоделированные метки релевантности в рамках общей временной информационной границы. Бенчмарк содержит 24 смоделированных исследовательских пользователя, 50 ежедневных потоков статей, 1 200 эпизодов «пользователь-день», 20 727 уникальных статей и 497 448 записей «эпизод-статья». Дополнительно мы описываем протокол слепой человеческой оценки для проверки согласованности автоматических метрик и экспертных суждений. Эксперименты с пятью базовыми подходами к рекомендации научных статей показывают, что PaperFlow достигает наиболее сильного ранжирования на основе oracle, наивысшей поведенческой согласованности с симулированными выборами чтения и лучшего показателя слепой человеческой оценки.

English

Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real scientific reading unfolds as a daily, longitudinal process in which interests shift and feedback accumulates. We introduce PaperFlow, a framework that organizes it into three coupled stages: Profiling, which constructs and maintains a structured, inspectable scholarly profile from heterogeneous cold-start evidence; Recommending, which ranks each date-specific paper stream through multi-signal aggregation under a fixed display budget; and Adapting, which updates user state from semantically distinct feedback signals and models interest drift across days. We further define a longitudinal user-day benchmark that fixes users, dates, candidate pools, visible inputs, and hidden simulated relevance labels under a shared temporal information boundary. The benchmark contains 24 simulated research users, 50 daily paper streams, 1,200 user-day episodes, 20,727 unique papers, and 497,448 episode-paper records. We additionally specify a blind human-evaluation protocol to validate alignment between automatic metrics and expert judgments. Experiments against five scientific recommendation baselines show that PaperFlow achieves the strongest oracle-based ranking, the highest behavioral alignment with simulated reading selections, and the best blind human-evaluation score.