PaperFlow: Perfilado, Recomendación y Adaptación en Flujos Diarios de Artículos

Resumen

La recomendación de artículos científicos se evalúa típicamente como un ranking estático sobre un conjunto fijo de candidatos, pero la lectura científica real se desarrolla como un proceso diario y longitudinal en el que los intereses cambian y la retroalimentación se acumula. Presentamos PaperFlow, un marco que organiza este proceso en tres etapas acopladas: Perfilado, que construye y mantiene un perfil académico estructurado e inspeccionable a partir de evidencia heterogénea de inicio en frío; Recomendación, que clasifica cada flujo de artículos específico de una fecha mediante agregación de múltiples señales bajo un presupuesto de visualización fijo; y Adaptación, que actualiza el estado del usuario a partir de señales de retroalimentación semánticamente distintas y modela la deriva de intereses a lo largo de los días. Además, definimos un punto de referencia longitudinal usuario-día que fija usuarios, fechas, conjuntos de candidatos, entradas visibles y etiquetas de relevancia simuladas ocultas bajo un límite de información temporal compartido. El punto de referencia contiene 24 usuarios de investigación simulados, 50 flujos diarios de artículos, 1200 episodios usuario-día, 20 727 artículos únicos y 497 448 registros episodio-artículo. También especificamos un protocolo de evaluación humana ciega para validar la alineación entre las métricas automáticas y los juicios de expertos. Los experimentos contra cinco líneas base de recomendación científica muestran que PaperFlow logra el ranking basado en oráculo más fuerte, la mayor alineación conductual con las selecciones de lectura simuladas y la mejor puntuación de evaluación humana ciega.

English

Scientific paper recommendation is typically evaluated as static ranking over a fixed candidate set, yet real scientific reading unfolds as a daily, longitudinal process in which interests shift and feedback accumulates. We introduce PaperFlow, a framework that organizes it into three coupled stages: Profiling, which constructs and maintains a structured, inspectable scholarly profile from heterogeneous cold-start evidence; Recommending, which ranks each date-specific paper stream through multi-signal aggregation under a fixed display budget; and Adapting, which updates user state from semantically distinct feedback signals and models interest drift across days. We further define a longitudinal user-day benchmark that fixes users, dates, candidate pools, visible inputs, and hidden simulated relevance labels under a shared temporal information boundary. The benchmark contains 24 simulated research users, 50 daily paper streams, 1,200 user-day episodes, 20,727 unique papers, and 497,448 episode-paper records. We additionally specify a blind human-evaluation protocol to validate alignment between automatic metrics and expert judgments. Experiments against five scientific recommendation baselines show that PaperFlow achieves the strongest oracle-based ranking, the highest behavioral alignment with simulated reading selections, and the best blind human-evaluation score.