Implizite Schlussfolgerung für generative Empfehlung auf Basis großer Sprachmodelle

Zusammenfassung

Große Sprachmodelle (Large Language Models, LLMs) werden zunehmend als Grundlage für Generative Empfehlung (Generative Recommendation, GR) eingesetzt, da sie Zugang zu vortrainiertem Weltwissen versprechen. Dennoch ist die zuverlässige Aktivierung dieses Wissens für GR noch wenig verstanden. Ein zentrales Hindernis besteht darin, dass LLM-basierte GR typischerweise Elemente durch semantische IDs (Semantic IDs, SIDs) repräsentiert, was die natürlichsprachliche Argumentationsschnittstelle der LLMs stört, da diese Token während des Vortrainings für das LLM unsichtbar waren. Bestehende Ansätze begegnen diesem Problem mit aufwändigen mehrstufigen Pipelines, die SIDs verankern und explizite Begründungen ableiten, bieten jedoch nur begrenzte Einblicke, wann und warum jede Stufe notwendig ist. In dieser Arbeit zerlegen wir systematisch explizite Argumentationstrainingspipelines für LLM-basierte GR und decken drei wesentliche Einschränkungen auf: abgeschwächte Verbalisierung von Weltwissen, Fehlanpassung zwischen den Einbettungsräumen von SIDs und natürlichsprachlichen Token sowie Empfindlichkeit gegenüber der Qualität der Begründungen – all dies beeinträchtigt die Leistung expliziter Argumentation. Um diese Probleme zu umgehen, schlagen wir PauseRec vor, ein leichtgewichtiges implizites Argumentationsparadigma, das speziell für GR entwickelt wurde. PauseRec ist außergewöhnlich praktisch, da es aufwändige Erfassung von Argumentationsspuren und Argumentations-Abstimmungstraining vermeidet, was zu einer Vielzahl von Vorteilen führt: (1) es übertrifft standardmäßige explizite CoT-Methoden um bis zu 6,22 %, (2) es reduziert die Trainingskosten um bis zu 65 % GPU-Stunden und (3) es beschleunigt die Inferenz um bis zu 71,3 %. Diese Ergebnisse positionieren PauseRec als leichtgewichtige Alternative zur expliziten Begründungsgenerierung und ermöglichen eine effektivere und effizientere LLM-basierte GR.

English

Large Language Models (LLMs) are increasingly adopted as backbones for Generative Recommendation (GR), promising access to pretrained world knowledge. Yet reliably invoking this knowledge for GR remains poorly understood. A key obstacle is that LLM-based GR typically represents items with Semantic IDs (SIDs), disrupting LLMs' natural-language reasoning interface because these tokens are unseen by the LLM during pretraining. Existing approaches address this with expensive multi-stage pipelines that ground SIDs and elicit explicit rationales, but offer limited insight into when and why each stage is necessary. In this work, we systematically decompose explicit reasoning training pipelines for LLM-based GR, revealing three key limitations: weakened world-knowledge verbalization, misalignment between SID and natural-language token embedding spaces, and sensitivity to rationale quality, all of which hurt explicit reasoning performance. To circumvent these issues, we propose PauseRec, a lightweight implicit reasoning paradigm tailored for GR. PauseRec is exceptionally practical, avoiding costly reasoning trace acquisition and reasoning alignment training, leading to a multitude of benefits: (1) it outperforms standard explicit CoT methods by up to 6.22%, (2) it reduces training cost by up to 65% GPU hours, and (3) it speeds up inference by up to 71.3%. These results position PauseRec as a lightweight alternative to explicit rationale generation, enabling more effective and efficient LLM-based GR.