R^2ec: Auf dem Weg zu großen Empfehlungsmodellen mit logischem Denken
R^2ec: Towards Large Recommender Models with Reasoning
May 22, 2025
Autoren: Runyang You, Yongqi Li, Xinyu Lin, Xin Zhang, Wenjie Wang, Wenjie Li, Liqiang Nie
cs.AI
Zusammenfassung
Große Empfehlungsmodelle haben LLMs (Large Language Models) als leistungsstarke Empfehlungssysteme erweitert, indem sie Kodierung oder Item-Generierung nutzen, und jüngste Durchbrüche im Bereich des LLM-Reasonings motivieren synchron die Erforschung des Reasonings in der Empfehlung. Aktuelle Studien positionieren LLMs meist als externe Reasoning-Module, um zusätzliche Gedanken zur Verbesserung konventioneller Empfehlungspipelines zu liefern. Solche entkoppelten Designs sind jedoch durch hohe Ressourcenkosten und suboptimale gemeinsame Optimierung begrenzt. Um diese Probleme zu adressieren, schlagen wir \name vor, ein einheitliches großes Empfehlungsmodell mit intrinsischen Reasoning-Fähigkeiten. Zunächst rekonzeptualisieren wir die Modellarchitektur, um verschränktes Reasoning und Empfehlungen im autoregressiven Prozess zu ermöglichen. Anschließend schlagen wir RecPO vor, ein entsprechendes Reinforcement-Learning-Framework, das \name sowohl in seinen Reasoning- als auch Empfehlungsfähigkeiten gleichzeitig in einer einzigen Policy-Aktualisierung optimiert; RecPO führt ein fusioniertes Belohnungsschema ein, das ausschließlich Empfehlungslabels nutzt, um die Reasoning-Fähigkeit zu simulieren und so die Abhängigkeit von spezialisierten Reasoning-Annotationen zu eliminieren. Experimente auf drei Datensätzen mit verschiedenen Baselines bestätigen die Wirksamkeit von \name und zeigen relative Verbesserungen von 68,67 % in Hit@5 und 45,21 % in NDCG@20. Der Code ist verfügbar unter https://github.com/YRYangang/RRec.
English
Large recommender models have extended LLMs as powerful recommenders via
encoding or item generation, and recent breakthroughs in LLM reasoning
synchronously motivate the exploration of reasoning in recommendation. Current
studies usually position LLMs as external reasoning modules to yield auxiliary
thought for augmenting conventional recommendation pipelines. However, such
decoupled designs are limited in significant resource cost and suboptimal joint
optimization. To address these issues, we propose \name, a unified large
recommender model with intrinsic reasoning capabilities. Initially, we
reconceptualize the model architecture to facilitate interleaved reasoning and
recommendation in the autoregressive process. Subsequently, we propose RecPO, a
corresponding reinforcement learning framework that optimizes \name\ both the
reasoning and recommendation capabilities simultaneously in a single policy
update; RecPO introduces a fused reward scheme that solely leverages
recommendation labels to simulate the reasoning capability, eliminating
dependency on specialized reasoning annotations. Experiments on three datasets
with various baselines verify the effectiveness of \name, showing relative
improvements of 68.67\% in Hit@5 and 45.21\% in NDCG@20. Code available at
https://github.com/YRYangang/RRec.