Ragionamento Latente Parallelo per la Raccomandazione Sequenziale

Abstract

L'acquisizione di preferenze utente complesse da sequenze comportamentali sparse rimane una sfida fondamentale nel recommendation sequenziale. I recenti metodi di ragionamento latente hanno mostrato potenzialità estendendo il calcolo al momento del test attraverso ragionamenti multi-step, ma si basano esclusivamente su un ridimensionamento a livello di profondità lungo una singola traiettoria, soffrendo di rendimenti decrescenti all'aumentare della profondità di ragionamento. Per superare questa limitazione, proponiamo Parallel Latent Reasoning (PLR), un framework innovativo che introduce per la prima volta un ridimensionamento computazionale a livello di ampiezza esplorando simultaneamente multiple traiettorie di ragionamento diverse. PLR costruisce flussi di ragionamento paralleli mediante token di attivazione apprendibili in spazio latente continuo, preserva la diversità tra i flussi attraverso una regolarizzazione del ragionamento globale e sintetizza adattivamente gli output multi-flusso mediante un'aggregazione di tipo mixture-of-reasoning-streams. Esperimenti estesi su tre dataset del mondo reale dimostrano che PLR supera sostanzialmente i baseline state-of-the-art mantenendo al contempo un'efficienza inferenziale in tempo reale. L'analisi teorica valida ulteriormente l'efficacia del ragionamento parallelo nel migliorare la capacità di generalizzazione. Il nostro lavoro apre nuove strade per potenziare la capacità di ragionamento nel recommendation sequenziale oltre i limiti del ridimensionamento in profondità esistente.

English

Capturing complex user preferences from sparse behavioral sequences remains a fundamental challenge in sequential recommendation. Recent latent reasoning methods have shown promise by extending test-time computation through multi-step reasoning, yet they exclusively rely on depth-level scaling along a single trajectory, suffering from diminishing returns as reasoning depth increases. To address this limitation, we propose Parallel Latent Reasoning (PLR), a novel framework that pioneers width-level computational scaling by exploring multiple diverse reasoning trajectories simultaneously. PLR constructs parallel reasoning streams through learnable trigger tokens in continuous latent space, preserves diversity across streams via global reasoning regularization, and adaptively synthesizes multi-stream outputs through mixture-of-reasoning-streams aggregation. Extensive experiments on three real-world datasets demonstrate that PLR substantially outperforms state-of-the-art baselines while maintaining real-time inference efficiency. Theoretical analysis further validates the effectiveness of parallel reasoning in improving generalization capability. Our work opens new avenues for enhancing reasoning capacity in sequential recommendation beyond existing depth scaling.

Ragionamento Latente Parallelo per la Raccomandazione Sequenziale

Parallel Latent Reasoning for Sequential Recommendation

Abstract

Support