Raciocínio Latente Paralelo para Recomendação Sequencial

Resumo

A captura de preferências complexas dos usuários a partir de sequências comportamentais esparsas permanece um desafio fundamental na recomendação sequencial. Métodos recentes de raciocínio latente mostraram potencial ao estender a computação no momento do teste por meio de raciocínio multi-etapas, no entanto, eles dependem exclusivamente de escalonamento em profundidade ao longo de uma única trajetória, sofrendo de retornos decrescentes à medida que a profundidade do raciocínio aumenta. Para superar esta limitação, propomos o Raciocínio Latente Paralelo (PLR), uma nova estrutura que pioneiramente introduz o escalonamento computacional em largura, explorando simultaneamente múltiplas trajetórias de raciocínio diversas. O PLR constrói fluxos de raciocínio paralelos por meio de tokens acionadores aprendíveis em espaço latente contínuo, preserva a diversidade entre os fluxos via regularização global do raciocínio e sintetiza adaptativamente as saídas multi-fluxo por meio de agregação de mistura de fluxos de raciocínio. Experimentos extensos em três conjuntos de dados do mundo real demonstram que o PLR supera substancialmente os modelos state-of-the-art, mantendo a eficiência de inferência em tempo real. A análise teórica valida ainda mais a eficácia do raciocínio paralelo na melhoria da capacidade de generalização. O nosso trabalho abre novas perspetivas para aumentar a capacidade de raciocínio na recomendação sequencial, indo além do escalonamento em profundidade existente.

English

Capturing complex user preferences from sparse behavioral sequences remains a fundamental challenge in sequential recommendation. Recent latent reasoning methods have shown promise by extending test-time computation through multi-step reasoning, yet they exclusively rely on depth-level scaling along a single trajectory, suffering from diminishing returns as reasoning depth increases. To address this limitation, we propose Parallel Latent Reasoning (PLR), a novel framework that pioneers width-level computational scaling by exploring multiple diverse reasoning trajectories simultaneously. PLR constructs parallel reasoning streams through learnable trigger tokens in continuous latent space, preserves diversity across streams via global reasoning regularization, and adaptively synthesizes multi-stream outputs through mixture-of-reasoning-streams aggregation. Extensive experiments on three real-world datasets demonstrate that PLR substantially outperforms state-of-the-art baselines while maintaining real-time inference efficiency. Theoretical analysis further validates the effectiveness of parallel reasoning in improving generalization capability. Our work opens new avenues for enhancing reasoning capacity in sequential recommendation beyond existing depth scaling.

Raciocínio Latente Paralelo para Recomendação Sequencial

Parallel Latent Reasoning for Sequential Recommendation

Resumo

Support