Rapport Technique RecGPT-V2
RecGPT-V2 Technical Report
December 16, 2025
papers.authors: Chao Yi, Dian Chen, Gaoyang Guo, Jiakai Tang, Jian Wu, Jing Yu, Mao Zhang, Wen Chen, Wenjun Yang, Yujie Luo, Yuning Jiang, Zhujin Gao, Bo Zheng, Binbin Cao, Changfa Wu, Dixuan Wang, Han Wu, Haoyi Hu, Kewei Zhu, Lang Tian, Lin Yang, Qiqi Huang, Siqi Yang, Wenbo Su, Xiaoxiao He, Xin Tong, Xu Chen, Xunke Xi, Xiaowei Huang, Yaxuan Wu, Yeqiu Yang, Yi Hu, Yujin Yuan, Yuliang Yan, Zile Zhou
cs.AI
papers.abstract
Les grands modèles de langage (LLM) ont démontré un potentiel remarquable pour transformer les systèmes de recommandation, en passant d'une correspondance implicite des schémas comportementaux à un raisonnement explicite sur les intentions. Bien que RecGPT-V1 ait ouvert la voie à ce paradigme en intégrant un raisonnement basé sur les LLM pour l'exploration des centres d'intérêt des utilisateurs et la prédiction des étiquettes d'articles, il souffre de quatre limitations fondamentales : (1) une inefficacité computationnelle et une redondance cognitive entre les multiples voies de raisonnement ; (2) une diversité insuffisante des explications dans une génération à modèle fixe ; (3) une généralisation limitée sous des paradigmes d'apprentissage supervisé ; et (4) une évaluation simpliste axée sur les résultats qui ne répond pas aux standards humains.
Pour relever ces défis, nous présentons RecGPT-V2 avec quatre innovations clés. Premièrement, un Système Multi-Agents Hiérarchique restructure le raisonnement intentionnel via une collaboration coordonnée, éliminant la duplication cognitive tout en permettant une couverture diversifiée des intentions. Combiné à l'Inférence par Représentations Hybrides qui compresse les contextes comportementaux des utilisateurs, notre framework réduit la consommation GPU de 60 % et améliore le rappel exclusif de 9,39 % à 10,99 %. Deuxièmement, un framework de Méta-Prompting génère dynamiquement des prompts adaptatifs contextuels, améliorant la diversité des explications de +7,3 %. Troisièmement, l'apprentissage par renforcement contraint atténue les conflits multi-récompenses, permettant une amélioration de +24,1 % dans la prédiction d'étiquettes et de +13,0 % dans l'acceptation des explications. Quatrièmement, un framework Agent-comme-Juge décompose l'évaluation en un raisonnement en plusieurs étapes, améliorant l'alignement avec les préférences humaines. Les tests A/B en ligne sur Taobao démontrent des améliorations significatives : +2,98 % CTR, +3,71 % IPV, +2,19 % TV et +11,46 % NER. RecGPT-V2 établit à la fois la faisabilité technique et la viabilité commerciale du déploiement à grande échelle d'un raisonnement intentionnel alimenté par les LLM, comblant le fossé entre l'exploration cognitive et l'utilité industrielle.
English
Large language models (LLMs) have demonstrated remarkable potential in transforming recommender systems from implicit behavioral pattern matching to explicit intent reasoning. While RecGPT-V1 successfully pioneered this paradigm by integrating LLM-based reasoning into user interest mining and item tag prediction, it suffers from four fundamental limitations: (1) computational inefficiency and cognitive redundancy across multiple reasoning routes; (2) insufficient explanation diversity in fixed-template generation; (3) limited generalization under supervised learning paradigms; and (4) simplistic outcome-focused evaluation that fails to match human standards.
To address these challenges, we present RecGPT-V2 with four key innovations. First, a Hierarchical Multi-Agent System restructures intent reasoning through coordinated collaboration, eliminating cognitive duplication while enabling diverse intent coverage. Combined with Hybrid Representation Inference that compresses user-behavior contexts, our framework reduces GPU consumption by 60% and improves exclusive recall from 9.39% to 10.99%. Second, a Meta-Prompting framework dynamically generates contextually adaptive prompts, improving explanation diversity by +7.3%. Third, constrained reinforcement learning mitigates multi-reward conflicts, achieving +24.1% improvement in tag prediction and +13.0% in explanation acceptance. Fourth, an Agent-as-a-Judge framework decomposes assessment into multi-step reasoning, improving human preference alignment. Online A/B tests on Taobao demonstrate significant improvements: +2.98% CTR, +3.71% IPV, +2.19% TV, and +11.46% NER. RecGPT-V2 establishes both the technical feasibility and commercial viability of deploying LLM-powered intent reasoning at scale, bridging the gap between cognitive exploration and industrial utility.