Raisonnement implicite pour la recommandation générative basée sur les grands modèles de langage

Résumé

Les grands modèles de langage (LLMs) sont de plus en plus adoptés comme architectures de base pour la recommandation générative (RG), promettant un accès à des connaissances mondiales pré-entraînées. Cependant, la manière d'invoquer de manière fiable ces connaissances pour la RG reste mal comprise. Un obstacle majeur est que la RG basée sur les LLMs représente généralement les éléments avec des identifiants sémantiques (IDS), ce qui perturbe l'interface de raisonnement en langage naturel des LLMs, car ces tokens sont inconnus du LLM lors du pré-entraînement. Les approches existantes traitent ce problème avec des pipelines multi-étapes coûteux qui ancrent les IDS et suscitent des justifications explicites, mais offrent un aperçu limité du moment et de la raison pour lesquels chaque étape est nécessaire. Dans ce travail, nous décomposons systématiquement les pipelines d'entraînement au raisonnement explicite pour la RG basée sur les LLMs, révélant trois limitations clés : une verbalisation affaiblie des connaissances mondiales, un désalignement entre les espaces de plongement des tokens des IDS et du langage naturel, et une sensibilité à la qualité des justifications, qui nuisent toutes à la performance du raisonnement explicite. Pour contourner ces problèmes, nous proposons PauseRec, un paradigme de raisonnement implicite léger adapté à la RG. PauseRec est exceptionnellement pratique, évitant l'acquisition coûteuse de traces de raisonnement et l'entraînement à l'alignement du raisonnement, ce qui entraîne une multitude d'avantages : (1) il surpasse les méthodes standard de chaîne de pensée (CoT) explicite jusqu'à 6,22 %, (2) il réduit le coût d'entraînement jusqu'à 65 % d'heures GPU, et (3) il accélère l'inférence jusqu'à 71,3 %. Ces résultats positionnent PauseRec comme une alternative légère à la génération de justifications explicites, permettant une RG basée sur les LLMs plus efficace et efficiente.

English

Large Language Models (LLMs) are increasingly adopted as backbones for Generative Recommendation (GR), promising access to pretrained world knowledge. Yet reliably invoking this knowledge for GR remains poorly understood. A key obstacle is that LLM-based GR typically represents items with Semantic IDs (SIDs), disrupting LLMs' natural-language reasoning interface because these tokens are unseen by the LLM during pretraining. Existing approaches address this with expensive multi-stage pipelines that ground SIDs and elicit explicit rationales, but offer limited insight into when and why each stage is necessary. In this work, we systematically decompose explicit reasoning training pipelines for LLM-based GR, revealing three key limitations: weakened world-knowledge verbalization, misalignment between SID and natural-language token embedding spaces, and sensitivity to rationale quality, all of which hurt explicit reasoning performance. To circumvent these issues, we propose PauseRec, a lightweight implicit reasoning paradigm tailored for GR. PauseRec is exceptionally practical, avoiding costly reasoning trace acquisition and reasoning alignment training, leading to a multitude of benefits: (1) it outperforms standard explicit CoT methods by up to 6.22%, (2) it reduces training cost by up to 65% GPU hours, and (3) it speeds up inference by up to 71.3%. These results position PauseRec as a lightweight alternative to explicit rationale generation, enabling more effective and efficient LLM-based GR.