Неявное рассуждение для генеративной рекомендации на основе больших языковых моделей

Аннотация

Большие языковые модели (БЯМ) всё чаще применяются в качестве основы для генеративной рекомендации (ГР), что сулит доступ к предобученным знаниям о мире. Однако надёжное использование этих знаний для ГР остаётся слабо изученным. Ключевым препятствием является то, что БЯМ-основанные ГР обычно представляют элементы с помощью семантических идентификаторов (СИД), что нарушает интерфейс рассуждений на естественном языке БЯМ, поскольку эти токены не встречались модели во время предобучения. Существующие подходы решают эту проблему дорогостоящими многоэтапными конвейерами, которые закрепляют СИД и извлекают явные обоснования, но дают ограниченное понимание того, когда и зачем необходим каждый этап. В данной работе мы систематически декомпозируем конвейеры обучения с явными рассуждениями для БЯМ-основанной ГР, выявляя три ключевых ограничения: ослабление вербализации знаний о мире, рассогласование пространств вложений СИД и токенов естественного языка, а также чувствительность к качеству обоснований, — все они снижают производительность явных рассуждений. Для преодоления этих проблем мы предлагаем PauseRec — лёгкую парадигму неявных рассуждений, адаптированную для ГР. PauseRec исключительно практичен: он позволяет избежать дорогостоящего получения цепочек рассуждений и обучения выравниванию рассуждений, что даёт множество преимуществ: (1) он превосходит стандартные методы явной цепочки рассуждений (CoT) на величину до 6,22%, (2) сокращает затраты на обучение до 65% часов GPU и (3) ускоряет инференс до 71,3%. Эти результаты позиционируют PauseRec как лёгкую альтернативу явному формированию обоснований, обеспечивая более эффективную и действенную БЯМ-основанную ГР.

English

Large Language Models (LLMs) are increasingly adopted as backbones for Generative Recommendation (GR), promising access to pretrained world knowledge. Yet reliably invoking this knowledge for GR remains poorly understood. A key obstacle is that LLM-based GR typically represents items with Semantic IDs (SIDs), disrupting LLMs' natural-language reasoning interface because these tokens are unseen by the LLM during pretraining. Existing approaches address this with expensive multi-stage pipelines that ground SIDs and elicit explicit rationales, but offer limited insight into when and why each stage is necessary. In this work, we systematically decompose explicit reasoning training pipelines for LLM-based GR, revealing three key limitations: weakened world-knowledge verbalization, misalignment between SID and natural-language token embedding spaces, and sensitivity to rationale quality, all of which hurt explicit reasoning performance. To circumvent these issues, we propose PauseRec, a lightweight implicit reasoning paradigm tailored for GR. PauseRec is exceptionally practical, avoiding costly reasoning trace acquisition and reasoning alignment training, leading to a multitude of benefits: (1) it outperforms standard explicit CoT methods by up to 6.22%, (2) it reduces training cost by up to 65% GPU hours, and (3) it speeds up inference by up to 71.3%. These results position PauseRec as a lightweight alternative to explicit rationale generation, enabling more effective and efficient LLM-based GR.