PaperFlow: Perfilamento, Recomendação e Adaptação em Fluxos Diários de Artigos

Resumo

A recomendação de artigos científicos é tipicamente avaliada como um ranqueamento estático sobre um conjunto fixo de candidatos, mas a leitura científica real se desenrola como um processo longitudinal diário, no qual os interesses mudam e o feedback se acumula. Apresentamos o PaperFlow, uma estrutura que organiza esse processo em três estágios acoplados: Perfilamento, que constrói e mantém um perfil acadêmico estruturado e inspecionável a partir de evidências heterogêneas de cold-start; Recomendação, que ranqueia cada fluxo de artigos específico por data por meio de agregação de múltiplos sinais sob um orçamento fixo de exibição; e Adaptação, que atualiza o estado do usuário a partir de sinais de feedback semanticamente distintos e modela a deriva de interesse ao longo dos dias. Definimos ainda um benchmark longitudinal usuário-dia que fixa usuários, datas, conjuntos de candidatos, entradas visíveis e rótulos de relevância simulados ocultos sob uma fronteira temporal de informação compartilhada. O benchmark contém 24 usuários de pesquisa simulados, 50 fluxos diários de artigos, 1.200 episódios usuário-dia, 20.727 artigos únicos e 497.448 registros episódio-artigo. Especificamos adicionalmente um protocolo de avaliação humana cega para validar o alinhamento entre métricas automáticas e julgamentos de especialistas. Experimentos contra cinco linhas de base de recomendação científica mostram que o PaperFlow alcança o ranqueamento baseado em oráculo mais forte, o maior alinhamento comportamental com seleções simuladas de leitura e a melhor pontuação em avaliação humana cega.

English

Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real scientific reading unfolds as a daily, longitudinal process in which interests shift and feedback accumulates. We introduce PaperFlow, a framework that organizes it into three coupled stages: Profiling, which constructs and maintains a structured, inspectable scholarly profile from heterogeneous cold-start evidence; Recommending, which ranks each date-specific paper stream through multi-signal aggregation under a fixed display budget; and Adapting, which updates user state from semantically distinct feedback signals and models interest drift across days. We further define a longitudinal user-day benchmark that fixes users, dates, candidate pools, visible inputs, and hidden simulated relevance labels under a shared temporal information boundary. The benchmark contains 24 simulated research users, 50 daily paper streams, 1,200 user-day episodes, 20,727 unique papers, and 497,448 episode-paper records. We additionally specify a blind human-evaluation protocol to validate alignment between automatic metrics and expert judgments. Experiments against five scientific recommendation baselines show that PaperFlow achieves the strongest oracle-based ranking, the highest behavioral alignment with simulated reading selections, and the best blind human-evaluation score.