Raisonnement latent parallèle pour la recommandation séquentielle
Parallel Latent Reasoning for Sequential Recommendation
January 6, 2026
papers.authors: Jiakai Tang, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng
cs.AI
papers.abstract
La capture de préférences utilisateur complexes à partir de séquences comportementales éparses reste un défi fondamental dans la recommandation séquentielle. Les méthodes récentes de raisonnement latent ont montré leur potentiel en étendant le calcul au moment du test grâce à un raisonnement à plusieurs étapes, mais elles reposent exclusivement sur une mise à l'échelle en profondeur le long d'une seule trajectoire, souffrant de rendements décroissants à mesure que la profondeur de raisonnement augmente. Pour remédier à cette limitation, nous proposons le Raisonnement Latent Parallèle (PLR), un nouveau cadre qui innove en matière de mise à l'échelle computationnelle en largeur en explorant simultanément plusieurs trajectoires de raisonnement diverses. PLR construit des flux de raisonnement parallèles via des jetons déclencheurs apprenables dans un espace latent continu, préserve la diversité entre les flux via une régularisation globale du raisonnement, et synthétise de manière adaptive les sorties multi-flux grâce à une agrégation de type mélange de flux de raisonnement. Des expériences approfondies sur trois jeux de données réels démontrent que PLR surpasse substantiellement les méthodes de référence tout en maintenant une efficacité d'inférence en temps réel. L'analyse théorique valide en outre l'efficacité du raisonnement parallèle pour améliorer la capacité de généralisation. Notre travail ouvre de nouvelles voies pour renforcer la capacité de raisonnement dans la recommandation séquentielle au-delà de la mise à l'échelle en profondeur existante.
English
Capturing complex user preferences from sparse behavioral sequences remains a fundamental challenge in sequential recommendation. Recent latent reasoning methods have shown promise by extending test-time computation through multi-step reasoning, yet they exclusively rely on depth-level scaling along a single trajectory, suffering from diminishing returns as reasoning depth increases. To address this limitation, we propose Parallel Latent Reasoning (PLR), a novel framework that pioneers width-level computational scaling by exploring multiple diverse reasoning trajectories simultaneously. PLR constructs parallel reasoning streams through learnable trigger tokens in continuous latent space, preserves diversity across streams via global reasoning regularization, and adaptively synthesizes multi-stream outputs through mixture-of-reasoning-streams aggregation. Extensive experiments on three real-world datasets demonstrate that PLR substantially outperforms state-of-the-art baselines while maintaining real-time inference efficiency. Theoretical analysis further validates the effectiveness of parallel reasoning in improving generalization capability. Our work opens new avenues for enhancing reasoning capacity in sequential recommendation beyond existing depth scaling.