Impliciete redenering voor op grote taalmodellen gebaseerde generatieve aanbeveling

Samenvatting

Grote Taalmodellen (GTM's) worden steeds vaker ingezet als basis voor Generatieve Aanbeveling (GA), met de belofte van toegang tot voorgetrainde wereldkennis. Toch blijft het betrouwbaar oproepen van deze kennis voor GA slecht begrepen. Een belangrijk obstakel is dat GA op basis van GTM's items doorgaans weergeeft met Semantische IDs (SID's), wat de interface voor redeneren in natuurlijke taal van GTM's verstoort, omdat deze tokens tijdens de voor training niet door het GTM zijn gezien. Bestaande benaderingen lossen dit op met dure meerfasige pijplijnen die SID's verankeren en expliciete redenaties uitlokken, maar geven beperkt inzicht in wanneer en waarom elke fase nodig is. In dit werk ontleden we systematisch expliciete trainingspijplijnen voor redeneren voor GA op basis van GTM's, waarbij drie belangrijke beperkingen aan het licht komen: verzwakte verbalisatie van wereldkennis, misalignatie tussen de inbeddingsruimtes van SID's en tokens in natuurlijke taal, en gevoeligheid voor de kwaliteit van de redenatie, die allemaal de prestaties van expliciet redeneren schaden. Om deze problemen te omzeilen, stellen we PauseRec voor, een lichtgewicht impliciet redeneerparadigma dat is toegesneden op GA. PauseRec is uitzonderlijk praktisch: het vermijdt dure verwerving van redeneersporen en alignment training voor redeneren, wat leidt tot een groot aantal voordelen: (1) het presteert tot 6,22% beter dan standaard expliciete CoT-methoden, (2) het vermindert de trainingskosten met tot 65% GPU-uren, en (3) het versnelt de inferentie met tot 71,3%. Deze resultaten positioneren PauseRec als een lichtgewicht alternatief voor expliciete redeneringgeneratie, wat effectievere en efficiëntere GA op basis van GTM's mogelijk maakt.

English

Large Language Models (LLMs) are increasingly adopted as backbones for Generative Recommendation (GR), promising access to pretrained world knowledge. Yet reliably invoking this knowledge for GR remains poorly understood. A key obstacle is that LLM-based GR typically represents items with Semantic IDs (SIDs), disrupting LLMs' natural-language reasoning interface because these tokens are unseen by the LLM during pretraining. Existing approaches address this with expensive multi-stage pipelines that ground SIDs and elicit explicit rationales, but offer limited insight into when and why each stage is necessary. In this work, we systematically decompose explicit reasoning training pipelines for LLM-based GR, revealing three key limitations: weakened world-knowledge verbalization, misalignment between SID and natural-language token embedding spaces, and sensitivity to rationale quality, all of which hurt explicit reasoning performance. To circumvent these issues, we propose PauseRec, a lightweight implicit reasoning paradigm tailored for GR. PauseRec is exceptionally practical, avoiding costly reasoning trace acquisition and reasoning alignment training, leading to a multitude of benefits: (1) it outperforms standard explicit CoT methods by up to 6.22%, (2) it reduces training cost by up to 65% GPU hours, and (3) it speeds up inference by up to 71.3%. These results position PauseRec as a lightweight alternative to explicit rationale generation, enabling more effective and efficient LLM-based GR.