Raciocínio Implícito para Recomendação Generativa Baseada em Modelos de Linguagem de Grande Escala

Resumo

Modelos de Linguagem de Grande Escala (LLMs) estão sendo cada vez mais adotados como bases para Recomendação Generativa (GR), prometendo acesso a conhecimento mundial pré-treinado. No entanto, a invocação confiável desse conhecimento para GR ainda é pouco compreendida. Um obstáculo fundamental é que GR baseada em LLMs tipicamente representa itens com IDs Semânticos (SIDs), interrompendo a interface de raciocínio em linguagem natural dos LLMs, pois esses tokens não são vistos pelo LLM durante o pré-treinamento. Abordagens existentes lidam com isso usando pipelines caros de múltiplos estágios que fundamentam os SIDs e elicitam justificativas explícitas, mas oferecem insights limitados sobre quando e por que cada estágio é necessário. Neste trabalho, decompomos sistematicamente pipelines de treinamento de raciocínio explícito para GR baseada em LLM, revelando três limitações principais: enfraquecimento da verbalização do conhecimento mundial, desalinhamento entre os espaços de embeddings de tokens de SID e de linguagem natural, e sensibilidade à qualidade das justificativas, todos prejudicando o desempenho do raciocínio explícito. Para contornar esses problemas, propomos PauseRec, um paradigma leve de raciocínio implícito, adaptado para GR. PauseRec é excepcionalmente prático, evitando custosa aquisição de rastros de raciocínio e treinamento de alinhamento de raciocínio, resultando em múltiplos benefícios: (1) supera métodos explícitos padrão de CoT em até 6,22%, (2) reduz o custo de treinamento em até 65% em horas de GPU e (3) acelera a inferência em até 71,3%. Esses resultados posicionam PauseRec como uma alternativa leve à geração explícita de justificativas, possibilitando GR baseada em LLM mais eficaz e eficiente.

English

Large Language Models (LLMs) are increasingly adopted as backbones for Generative Recommendation (GR), promising access to pretrained world knowledge. Yet reliably invoking this knowledge for GR remains poorly understood. A key obstacle is that LLM-based GR typically represents items with Semantic IDs (SIDs), disrupting LLMs' natural-language reasoning interface because these tokens are unseen by the LLM during pretraining. Existing approaches address this with expensive multi-stage pipelines that ground SIDs and elicit explicit rationales, but offer limited insight into when and why each stage is necessary. In this work, we systematically decompose explicit reasoning training pipelines for LLM-based GR, revealing three key limitations: weakened world-knowledge verbalization, misalignment between SID and natural-language token embedding spaces, and sensitivity to rationale quality, all of which hurt explicit reasoning performance. To circumvent these issues, we propose PauseRec, a lightweight implicit reasoning paradigm tailored for GR. PauseRec is exceptionally practical, avoiding costly reasoning trace acquisition and reasoning alignment training, leading to a multitude of benefits: (1) it outperforms standard explicit CoT methods by up to 6.22%, (2) it reduces training cost by up to 65% GPU hours, and (3) it speeds up inference by up to 71.3%. These results position PauseRec as a lightweight alternative to explicit rationale generation, enabling more effective and efficient LLM-based GR.