순차 추천을 위한 병렬 잠재 추론
Parallel Latent Reasoning for Sequential Recommendation
January 6, 2026
저자: Jiakai Tang, Xu Chen, Wen Chen, Jian Wu, Yuning Jiang, Bo Zheng
cs.AI
초록
희소한 행동 시퀀스로부터 복잡한 사용자 선호도를 포착하는 것은 시퀀셜 추천에서 근본적인 과제로 남아 있습니다. 최근 잠재 추론 방법론들은 다단계 추론을 통해 테스트 시점 연산을 확장하며 가능성을 보여주었으나, 단일 경로를 따른 깊이 수준 확장에만 의존하여 추론 깊이가 증가함에 따라 한계에 직면해 있습니다. 이러한 한계를 해결하기 위해, 본 연구에서는 다중의 다양한 추론 경로를 동시에 탐색함으로써 너비 수준의 연산 확장을 선도하는 새로운 프레임워크인 병렬 잠재 추론(PLR)을 제안합니다. PLR은 연속 잠재 공간에서 학습 가능한 트리거 토큰을 통해 병렬 추론 스트림을 구성하고, 전역 추론 정규화를 통해 스트림 간 다양성을 유지하며, 추론 스트림 혼합 집계를 통해 다중 스트림 출력을 적응적으로 통합합니다. 3개의 실제 데이터셋에서 진행된 포괄적인 실험을 통해 PLR이 최첨단 기준 모델들을 크게 능가하면서도 실시간 추론 효율성을 유지함을 입증했습니다. 이론적 분석은 또한 병렬 추론이 일반화 성능 향상에 효과적임을 추가로 검증합니다. 본 연구는 기존의 깊이 확장을 넘어 시퀀셜 추천의 추론 능력을 향상시키는 새로운 방향을 제시합니다.
English
Capturing complex user preferences from sparse behavioral sequences remains a fundamental challenge in sequential recommendation. Recent latent reasoning methods have shown promise by extending test-time computation through multi-step reasoning, yet they exclusively rely on depth-level scaling along a single trajectory, suffering from diminishing returns as reasoning depth increases. To address this limitation, we propose Parallel Latent Reasoning (PLR), a novel framework that pioneers width-level computational scaling by exploring multiple diverse reasoning trajectories simultaneously. PLR constructs parallel reasoning streams through learnable trigger tokens in continuous latent space, preserves diversity across streams via global reasoning regularization, and adaptively synthesizes multi-stream outputs through mixture-of-reasoning-streams aggregation. Extensive experiments on three real-world datasets demonstrate that PLR substantially outperforms state-of-the-art baselines while maintaining real-time inference efficiency. Theoretical analysis further validates the effectiveness of parallel reasoning in improving generalization capability. Our work opens new avenues for enhancing reasoning capacity in sequential recommendation beyond existing depth scaling.