Razonamiento Implícito para Recomendación Generativa basada en Modelos de Lenguaje de Gran Escala

Resumen

Los Modelos de Lenguaje de Gran Escala (LLMs) se adoptan cada vez más como bases para la Recomendación Generativa (GR), prometiendo acceso a conocimiento del mundo preentrenado. Sin embargo, la invocación fiable de este conocimiento para la GR sigue siendo poco comprendida. Un obstáculo clave es que la GR basada en LLMs típicamente representa los elementos con Identificadores Semánticos (SIDs), lo que interrumpe la interfaz de razonamiento en lenguaje natural de los LLMs, ya que estos tokens no fueron vistos por el LLM durante el preentrenamiento. Los enfoques existentes abordan esto con costosas tuberías de múltiples etapas que fundamentan los SIDs y generan razonamientos explícitos, pero ofrecen una visión limitada de cuándo y por qué cada etapa es necesaria. En este trabajo, descomponemos sistemáticamente las tuberías de entrenamiento de razonamiento explícito para la GR basada en LLMs, revelando tres limitaciones clave: verbalización debilitada del conocimiento del mundo, desalineación entre los espacios de incrustación de tokens de SID y de lenguaje natural, y sensibilidad a la calidad del razonamiento, todo lo cual perjudica el rendimiento del razonamiento explícito. Para eludir estos problemas, proponemos PauseRec, un paradigma de razonamiento implícito ligero adaptado para GR. PauseRec es excepcionalmente práctico, evitando la costosa adquisición de trazas de razonamiento y el entrenamiento de alineación de razonamiento, lo que conlleva múltiples beneficios: (1) supera a los métodos estándar de Cadena de Pensamiento (CoT) explícito hasta en un 6.22%, (2) reduce el coste de entrenamiento hasta en un 65% en horas de GPU, y (3) acelera la inferencia hasta en un 71.3%. Estos resultados posicionan a PauseRec como una alternativa ligera a la generación de razonamientos explícitos, permitiendo una GR basada en LLMs más efectiva y eficiente.

English

Large Language Models (LLMs) are increasingly adopted as backbones for Generative Recommendation (GR), promising access to pretrained world knowledge. Yet reliably invoking this knowledge for GR remains poorly understood. A key obstacle is that LLM-based GR typically represents items with Semantic IDs (SIDs), disrupting LLMs' natural-language reasoning interface because these tokens are unseen by the LLM during pretraining. Existing approaches address this with expensive multi-stage pipelines that ground SIDs and elicit explicit rationales, but offer limited insight into when and why each stage is necessary. In this work, we systematically decompose explicit reasoning training pipelines for LLM-based GR, revealing three key limitations: weakened world-knowledge verbalization, misalignment between SID and natural-language token embedding spaces, and sensitivity to rationale quality, all of which hurt explicit reasoning performance. To circumvent these issues, we propose PauseRec, a lightweight implicit reasoning paradigm tailored for GR. PauseRec is exceptionally practical, avoiding costly reasoning trace acquisition and reasoning alignment training, leading to a multitude of benefits: (1) it outperforms standard explicit CoT methods by up to 6.22%, (2) it reduces training cost by up to 65% GPU hours, and (3) it speeds up inference by up to 71.3%. These results position PauseRec as a lightweight alternative to explicit rationale generation, enabling more effective and efficient LLM-based GR.