ChatPaper.aiChatPaper

R^2ec: В направлении крупных рекомендательных моделей с логическим выводом

R^2ec: Towards Large Recommender Models with Reasoning

May 22, 2025
Авторы: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI

Аннотация

Крупные модели рекомендательных систем расширили возможности языковых моделей (LLM) в качестве мощных рекомендателей через кодирование или генерацию элементов, а недавние прорывы в области рассуждений LLM синхронно стимулируют исследование рассуждений в рекомендательных системах. Современные исследования обычно позиционируют LLM как внешние модули рассуждений для создания вспомогательных мыслей, дополняющих традиционные конвейеры рекомендаций. Однако такие разделенные конструкции ограничены значительными затратами ресурсов и неоптимальной совместной оптимизацией. Для решения этих проблем мы предлагаем \name, унифицированную крупную рекомендательную модель с внутренними возможностями рассуждений. Изначально мы переосмысливаем архитектуру модели, чтобы облегчить чередование рассуждений и рекомендаций в авторегрессивном процессе. Затем мы предлагаем RecPO, соответствующую структуру обучения с подкреплением, которая оптимизирует \name\ как возможности рассуждений, так и рекомендаций одновременно в рамках одного обновления политики; RecPO вводит схему объединенных наград, которая исключительно использует метки рекомендаций для имитации способности рассуждений, устраняя зависимость от специализированных аннотаций рассуждений. Эксперименты на трех наборах данных с различными базовыми моделями подтверждают эффективность \name, показывая относительные улучшения на 68.67\% в Hit@5 и 45.21\% в NDCG@20. Код доступен по адресу https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via encoding or item generation, and recent breakthroughs in LLM reasoning synchronously motivate the exploration of reasoning in recommendation. Current studies usually position LLMs as external reasoning modules to yield auxiliary thought for augmenting conventional recommendation pipelines. However, such decoupled designs are limited in significant resource cost and suboptimal joint optimization. To address these issues, we propose \name, a unified large recommender model with intrinsic reasoning capabilities. Initially, we reconceptualize the model architecture to facilitate interleaved reasoning and recommendation in the autoregressive process. Subsequently, we propose RecPO, a corresponding reinforcement learning framework that optimizes \name\ both the reasoning and recommendation capabilities simultaneously in a single policy update; RecPO introduces a fused reward scheme that solely leverages recommendation labels to simulate the reasoning capability, eliminating dependency on specialized reasoning annotations. Experiments on three datasets with various baselines verify the effectiveness of \name, showing relative improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at https://github.com/YRYangang/RRec.
PDF22June 4, 2025